ビッグデータ構築にあたって、データレイクの経験をしているので、備忘録として記載しておきます。
データレイクについて
データレイクとは、加工していないデータ、構造化データ、半構造化データなどいろんなデータをとりあえず何でもいれるデータ格納庫です。
たくさんデータを入れるという意味で湖(レイク)を使っていますね。
データの具体例
データレイクでは以下のようなデータを格納されることがあります。
例:小売チェーンのデータ活用
ある小売企業が全国に店舗を持っているとします。
【データレイクに保存されるデータ】
・POSデータ(販売データ)
・CSV形式:商品ID、販売日時、金額、店舗ID
・顧客データ
・SQLデータベース:会員ID、年齢、住所、購入履歴
・ECサイトのログ
・JSON形式:クリック履歴、検索キーワード、閲覧商品
・店舗のIoTセンサー
・Parquet形式:来店者数、滞在時間、温度センサー情報
・SNSデータ(外部APIから収集)
・テキスト形式:口コミ、レビュー、感情分析結果
上記のようにデータレイクは整形前のデータをとりあえずどんどん入れていくようなイメージになります。
データレイクとDWHの違いについて
データレイクのDWHの違いとしては、整形前か整形後の違いになります。
どちらもデータとしては膨大なデータ量ではあります。
以下違いについて箇条書きでまとめました。
【データレイク】
・全部のデータをとりあえずどんどんいれていく
→イメージとして、スマホでとった写真をとりあえずそのまま残しているようなイメージ
・整理されていないので、データ活用としては難しい
【DWH】
・データを整理して、各フォルダで属性をまとめたデータ
→イメージとして、撮った写真を「旅行」「会社」「プライベート」等種類を分けて保存するイメージ
・データが整理されているので、活用したいデータがどこにあるのかすぐに分かる
DWHの棲み分けは行われていない会社もある
自分がびっくりしたのですが、データレイクを整形して、そのまま活用している会社もあるようです。
要は、データのクレンジングはしているが、DWHのように定義されたテーブルを格納していないことです。
データレイクでも2つ種類があり、
・整形していないデータをそのままいれるデータレイク
・クレンジングしてデータを入れておくデータレイク
「勉強していたことと違うな。。」と思いましたが、確かに0→1でビッグデータ構築するとなるとかなり時間がかかりますね。。
そう考えると、DWH構築されているところは大企業、人数がかなりいる会社限定のように思えます。
まとめ
まとめとしてデータレイクは以下の意味でよく使われます。
・データをとりあえずどんどんいれていく格納庫
・動画、音声も格納することが可能
・WDHはデータレイクから整形したデータとして活用される
・データレイクからクレンジングしてデータ活用される会社もある