聞かれて説明が上手くできなかったので整理しておく備忘録。
S3, Redshiftの住み分けの考え方の整理にもできる。
データレイク
・元データ、ローデータそのまま
・共有フォルダやS3, 場合によってはそのまま取り込む形でRDBMS(SQL Server, Oracle Database, ...) などに保管
データウェアハウス(DWH)
・複数のデータを蓄積
・意味のある形で保管(参照・結合、加工、・・・)
・Redshift, RDBMS(SQL Server, Oracle Database, ...)などに保管
データマート
・特定の利用者、用途向けにデータを加工・蓄積
・ExcelやBIツールを指すことが多くPower BI, Tableau, Qlikview, Qlik Sense などが代表例
定義上、最終的に利用者が見るものはデータマートとなる。
データマートに至るまでの途中過程は環境によってバラバラだと思う。