jsonlフォーマットの使い方
概要
- JSON Linesというフォーマットの1つ
- column情報を含んだcsvのようなデータ
{"key1": "val1", "key2": "val2", ...}
- 拡張子は
jsonl
- 文字コードは
UTF8
- ラインセパレータは
\n
具体的なユースケース
APIの戻り値
- GCPの多くがjsonl形式になっており、統一性のために求められることがある
具体例
{
"result": [
{"key1": "val2", "key2": "val2", ...},
{"key1": "val2", "key2": "val2", ...}
]
}
BigQueryへのアップロードデータ
- BigQueryへデータをアップロードする際のファイル形式としての利用
pandasの関数でjsonl形式で出力する
import pandas as pd
df = pd.DataFrame()
df["A"] = [1, 2, 3]
df["B"] = ["a", "b", "c"]
data = df.to_json(orient="records", lines=True, force_ascii=False)
print(data)
"""
{"A":1,"B":"a"}
{"A":2,"B":"b"}
{"A":3,"B":"c"}
"""