• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

huggingface datasets

date: 2023-05-27 excerpt: huggingface datasetsの使い方

tag: huggingfacedatasetspython


huggingface datasetsの使い方

概要

  • huggingfaceのデータセットのレポジトリにコードからアクセスできるツール
  • 一部の前処理なども含まれている

インストール

$ pip install datasets

具体例

IMDBデータセットを使う

from datasets import load_dataset
dataset = load_dataset('imdb', split="train") 
dataset.to_pandas()

MS MARCO データセットをストリーミングでロードし、最初の10件を取得

import pandas as pd
from datasets import load_dataset

dataset = load_dataset("ms_marco", "v1.1", split="train", streaming=True).take(10)
data_list = list(dataset)
df = pd.DataFrame(data_list)
df

参考

  • huggingface/datasets


huggingfacedatasetspython Share Tweet