CC-100について
概要
- ccはcommon crawlの略
- XLM-Rという機械学習モデルをトレイニングしようとしたデータセット
- 様々な言語のコーパスがアップロードされており、日本語のコーパスでおおよそ15GBある
- BERTのトレイニングやアカデミアでの引用が多い
- ビジネスユースにするには、学習データが完全な著作権フリーでない点に注意
Term of Use(利用規約)の概要
- 集められたデータは
robot.txt
やNOFOLLOW
を遵守して行われている - cc-100のデータを使って法律違反をしてはならない
- cc-100の内容の保証はしない
リンク
ダウンロード
$ aria2c -x15 https://data.statmt.org/cc-100/ja.txt.xz
例
銀時にとってその十年は、長いようで短かったように思う。過ぎてみれば、の話なのだが。
道を分かつまでの二十年弱は多くの時間を共有してきたが、こと最近までの十年は互いに全く知らぬ道を歩んできた。
こいつは昔からそうだ。出会った当初もいつの間にか道場に上がり込んでいて、当然のように周りに馴染んでいた。人の懐に入り込むことが上手いというか、なんというか。
...