kedroのセットアップや使い方
概要
- Kedro is an open-source Python framework for creating reproducible, maintainable and modular data science code.
- パイプラインのテンプレート作成フレームワーク
- オレオレパイプラインを作るよりは良いみたいな発想
インストール
仮想環境の作成
conda activate <virtual-env>
インストール
$ python3 -m pip install kedro
機能単位
node
- 一つの処理
- この粒度で人をアサインするなど
pipeline
- nodeを順番を作成して組み合わせたもの
新規kedroプロジェクトを作成
kedro new
- 新規のプロジェクトを作成
実行
kedro run
依存のインストール
kedro install
プロジェクトのディレクトリ構成
├── README.md
├── conf
│ └── base
│ └── parameters
│ └── data_processing.yml
└── src
├── <project_name>
│ ├── __init__.py
│ └── pipelines
│ ├── __init__.py
│ └── data_processing
│ ├── README.md
│ ├── __init__.py
│ ├── nodes.py
│ └── pipeline.py
└── tests
├── __init__.py
└── pipelines
├── __init__.py
└── data_processing
├── __init__.py
└── test_pipeline.py
nodeの追加
pipelines
の下に処理の単位の機能を記す