Data Lake
概要
- 構造化データおよび非構造化データを保存する集中型リポジトリ
Intent
- 増大するデータ量を処理するためのスケーラブルなストレージを提供し、より迅速にデータ分析が可能になる
Problem
- 保存するデータ量が増えても対応できる
- 高速なデータの取り扱いと保存ができる
- さまざまなフォーマットのデータを格納できる
- 生データへの何度もすぐにアクセスできる
- スキーマのない書き込みとスキーマに基づいた読み込みができる
Solution
- データ蓄積とデータ処理を分離する
- 取り入れ層、管理層、消費層に分けて実装する
Context
- フェーズ:システム全体のアーキテクチャ石灰
- MLアプリケーションの利用環境:一般
Discussion
- 組織内でのデータへのアクセス権限が決められている
- 横断的にデータを利用することが可能