kedro

date: 2022-02-24 excerpt: kedroのセットアップや使い方

tag: statistics 機械学習 kedro python

kedroのセットアップや使い方

概要

Kedro is an open-source Python framework for creating reproducible, maintainable and modular data science code.
パイプラインのテンプレート作成フレームワーク
- オレオレパイプラインを作るよりは良いみたいな発想

インストール

仮想環境の作成

conda activate <virtual-env>

インストール

$ python3 -m pip install kedro

機能単位

node
- 一つの処理
- この粒度で人をアサインするなど
pipeline
- nodeを順番を作成して組み合わせたもの

新規kedroプロジェクトを作成

kedro new

新規のプロジェクトを作成

実行

kedro run

依存のインストール

kedro install

プロジェクトのディレクトリ構成

├── README.md
├── conf
│   └── base
│       └── parameters
│           └── data_processing.yml
└── src
    ├── <project_name>
    │   ├── __init__.py
    │   └── pipelines
    │       ├── __init__.py
    │       └── data_processing
    │           ├── README.md
    │           ├── __init__.py
    │           ├── nodes.py
    │           └── pipeline.py
    └── tests
        ├── __init__.py
        └── pipelines
            ├── __init__.py
            └── data_processing
                ├── __init__.py
                └── test_pipeline.py

nodeの追加

pipelinesの下に処理の単位の機能を記す

参考

Welcome to Kedro’s documentation!