今回の課題
DataLake, DWH, DataMart, RDBMSの違いについて、理解したかったため調べてみた。
DataLake
規模に関わらず、WEBサイトやSNSなど、様々なソースから収集した生データを構造化データと非構造化データを問わず保存できる一元化されたリポジトリ。
構造化データ
2次元の表形式(Excelなど)となっているデータ。
非構造化データ
構造化データではないデータ。
PDF,音声,画像,動画など。
DWH
- 様々なシステムからデータを保存し、それを分析するために整理するデータの倉庫。
└データ分析を目的としているので、アプリケーションではもう利用しなくなったアクセスログなどの情報も格納され、また一度格納されたデータが消されることは少ない。 - データ分析に特化したDB。
- 超並列処理アーキテクチャを採用していて、1つのクエリ処理を同時並行で行えるため、通常のDBよりも高い検索・分析機能を発揮する。
- 構造化データを格納する。
DataMart
DWHの中から、構造化データを目的別に切り出し、小規模単位で管理しておくための収納庫。
目的ごとにテーブルを作成するので効率的にデータ分析ができる。
RDBMS
リレーショナル・データベース・マネジメント・システム。
データベースのうち、データを表に似た構造で管理するもの。
DWHのようにデータ活用までは想定しておらず、あくまでデータを使いやすい形に整理して保管するもの。
データ活用までは想定していないため、
DWHとは異なり、目的に沿わないデータは更新・削除される。(例えば、人事データを格納するデータベースにて、新入社員が入社すれば社員のデータが追加され、退職者が出ればデータが削除される。といったイメージ。)
RDBMS以外に、DBにはいろいろな種類がある。
※参考:【データベースの種類比較表】RDB以外も違いがわかるよう徹底比較