• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

CC-100

date: 2022-03-16 excerpt: CC-100について

tag: statistics機械学習データセットdatasetcommon crawl


CC-100について

概要

  • ccはcommon crawlの略
  • XLM-Rという機械学習モデルをトレイニングしようとしたデータセット
  • 様々な言語のコーパスがアップロードされており、日本語のコーパスでおおよそ15GBある
  • BERTのトレイニングやアカデミアでの引用が多い
  • ビジネスユースにするには、学習データが完全な著作権フリーでない点に注意

Term of Use(利用規約)の概要

  • 集められたデータはrobot.txtやNOFOLLOWを遵守して行われている
  • cc-100のデータを使って法律違反をしてはならない
  • cc-100の内容の保証はしない

リンク

  • CC-100: Monolingual Datasets from Web Crawl Data

ダウンロード

$ aria2c -x15 https://data.statmt.org/cc-100/ja.txt.xz

例

銀時にとってその十年は、長いようで短かったように思う。過ぎてみれば、の話なのだが。
道を分かつまでの二十年弱は多くの時間を共有してきたが、こと最近までの十年は互いに全く知らぬ道を歩んできた。
こいつは昔からそうだ。出会った当初もいつの間にか道場に上がり込んでいて、当然のように周りに馴染んでいた。人の懐に入り込むことが上手いというか、なんというか。
...

利用例

  • rinnakk/japanese-pretrained-models

参考

  • Terms of Use/commoncrawl.org


statistics機械学習データセットdatasetcommon crawl Share Tweet