• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

pandas sample

date: 2022-09-16 excerpt: pandas sampleのチートシート

tag: pythonpandassampleチートシート


pandas sampleのチートシート

概要

  • データのサンプリング

データのシャッフル

  • fracは何割をランダムサンプルで取り出すか、というオプション
  • frac=1.0ではすべてサンプルする
    • シャッフルされた状態になる
df.sample(frac=1.0)

グループごとのサンプリング

  • グループごとの最大数を指定できる
  • グループのデータが最大数に満たない場合、replace=Trueすると何度も同じ要素が出現することで、アップサンプリングできる
df = df.groupby(by=["day"]).sample(n=50000, random_state=1, replace=True)


pythonpandassampleチートシート Share Tweet