CC-100

date: 2022-03-16 excerpt: CC-100について

tag: statistics 機械学習データセット dataset common crawl

CC-100について

概要

ccはcommon crawlの略
XLM-Rという機械学習モデルをトレイニングしようとしたデータセット
様々な言語のコーパスがアップロードされており、日本語のコーパスでおおよそ15GBある
BERTのトレイニングやアカデミアでの引用が多い
ビジネスユースにするには、学習データが完全な著作権フリーでない点に注意

Term of Use(利用規約)の概要

集められたデータはrobot.txtやNOFOLLOWを遵守して行われている
cc-100のデータを使って法律違反をしてはならない
cc-100の内容の保証はしない

リンク

CC-100: Monolingual Datasets from Web Crawl Data

ダウンロード

$ aria2c -x15 https://data.statmt.org/cc-100/ja.txt.xz

例

銀時にとってその十年は、長いようで短かったように思う。過ぎてみれば、の話なのだが。
道を分かつまでの二十年弱は多くの時間を共有してきたが、こと最近までの十年は互いに全く知らぬ道を歩んできた。
こいつは昔からそうだ。出会った当初もいつの間にか道場に上がり込んでいて、当然のように周りに馴染んでいた。人の懐に入り込むことが上手いというか、なんというか。
...

利用例

rinnakk/japanese-pretrained-models

参考

Terms of Use/commoncrawl.org

statistics 機械学習データセット dataset common crawl