huggingface datasets
date: 2023-05-27 excerpt: huggingface datasetsの使い方
huggingface datasetsの使い方
概要
- huggingfaceのデータセットのレポジトリにコードからアクセスできるツール
- 一部の前処理なども含まれている
インストール
$ pip install datasets
具体例
IMDBデータセットを使う
from datasets import load_dataset
dataset = load_dataset('imdb', split="train")
dataset.to_pandas()
MS MARCO データセットをストリーミングでロードし、最初の10件を取得
import pandas as pd
from datasets import load_dataset
dataset = load_dataset("ms_marco", "v1.1", split="train", streaming=True).take(10)
data_list = list(dataset)
df = pd.DataFrame(data_list)
df