• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

データレイクの有用性の説明

date: 2024-09-22 excerpt: データレイクの有用性の説明

tag: datalake説明


データレイクの有用性の説明

概要

  • データレイクを導入するにあたり、ビジネスメンバーやエンジニアに対してデータレイクの有用性を説明する必要がある
  • その際の説明の要点をまとめる

基本構造

### 目的
 1. **BIツールのバックエンドにBigQueryを採用**
   - 大量のデータを効率的に蓄積し、柔軟にクエリを実行するため。
   - Master系データとTransactional系データの統合により、包括的なビジネスインサイトを得ることが可能にする
 2. **機械学習モデルの導入を容易にする環境整備**
   - データレイクを構築することで、アナリスト・データサイエンティストが分析に必要なデータを一元管理でき、効率的にモデルをトレーニング・評価できるようにする

### データ構成
 - **Master系データ**
   - **users**: ユーザー情報のデータ
   - **companies**: 会社や取引先のデータ
   - **contracts**: 契約情報の管理
 - **Transactional系データ**
   - **user_logs (基本形)**: Webプロダクト内のユーザーの行動ログ
     - **timestamp**: アクションの発生時間を記録
     - **session_id**
     - **user_id**
     - **referer**: 参照元のURL
     - **ua**: ユーザーエージェント(ブラウザ、デバイス情報)
     - **ip**: ユーザーのIPアドレス
     - **url**: アクセスしたページのURL
     - **event_type**
     - **action**: ユーザーが実行したアクション(例: クリック、検索)
     - **params**: アクションに関連するパラメータ

### 結論
BigQueryを利用したデータレイクの導入で、BIツールによる高度なデータ分析が可能になり、機械学習モデルの開発・運用を効率化する基盤が整います。
これにより、データ駆動型の意思決定を強化し、ビジネスの競争力向上に貢献します。


datalake説明 Share Tweet