huggingface datasets

公開日 2023-05-27 / 更新日 2022-05-27

huggingface datasetsの使い方

タグ huggingface datasets Python

概要

huggingfaceのデータセットのレポジトリにコードからアクセスできるツール
一部の前処理なども含まれている

インストール

$ pip install datasets

具体例

IMDBデータセットを使う

from datasets import load_dataset
dataset = load_dataset('imdb', split="train") 
dataset.to_pandas()

MS MARCO データセットをストリーミングでロードし、最初の10件を取得

import pandas as pd
from datasets import load_dataset

dataset = load_dataset("ms_marco", "v1.1", split="train", streaming=True).take(10)
data_list = list(dataset)
df = pd.DataFrame(data_list)
df

参考

huggingface/datasets