pandas sampleのチートシート
概要
- データのサンプリング
データのシャッフル
frac
は何割をランダムサンプルで取り出すか、というオプションfrac=1.0
ではすべてサンプルする- シャッフルされた状態になる
df.sample(frac=1.0)
グループごとのサンプリング
- グループごとの最大数を指定できる
- グループのデータが最大数に満たない場合、
replace=True
すると何度も同じ要素が出現することで、アップサンプリングできる
df = df.groupby(by=["day"]).sample(n=50000, random_state=1, replace=True)