データレイクの有用性の説明
概要
- データレイクを導入するにあたり、ビジネスメンバーやエンジニアに対してデータレイクの有用性を説明する必要がある
- その際の説明の要点をまとめる
基本構造
### 目的
1. **BIツールのバックエンドにBigQueryを採用**
- 大量のデータを効率的に蓄積し、柔軟にクエリを実行するため。
- Master系データとTransactional系データの統合により、包括的なビジネスインサイトを得ることが可能にする
2. **機械学習モデルの導入を容易にする環境整備**
- データレイクを構築することで、アナリスト・データサイエンティストが分析に必要なデータを一元管理でき、効率的にモデルをトレーニング・評価できるようにする
### データ構成
- **Master系データ**
- **users**: ユーザー情報のデータ
- **companies**: 会社や取引先のデータ
- **contracts**: 契約情報の管理
- **Transactional系データ**
- **user_logs (基本形)**: Webプロダクト内のユーザーの行動ログ
- **timestamp**: アクションの発生時間を記録
- **session_id**
- **user_id**
- **referer**: 参照元のURL
- **ua**: ユーザーエージェント(ブラウザ、デバイス情報)
- **ip**: ユーザーのIPアドレス
- **url**: アクセスしたページのURL
- **event_type**
- **action**: ユーザーが実行したアクション(例: クリック、検索)
- **params**: アクションに関連するパラメータ
### 結論
BigQueryを利用したデータレイクの導入で、BIツールによる高度なデータ分析が可能になり、機械学習モデルの開発・運用を効率化する基盤が整います。
これにより、データ駆動型の意思決定を強化し、ビジネスの競争力向上に貢献します。