0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【ビッグデータ】データレイクについて

Posted at

ビッグデータ構築にあたって、データレイクの経験をしているので、備忘録として記載しておきます。

データレイクについて

データレイクとは、加工していないデータ、構造化データ、半構造化データなどいろんなデータをとりあえず何でもいれるデータ格納庫です。
たくさんデータを入れるという意味で湖(レイク)を使っていますね。

データの具体例

データレイクでは以下のようなデータを格納されることがあります。

例:小売チェーンのデータ活用
ある小売企業が全国に店舗を持っているとします。
【データレイクに保存されるデータ】
・POSデータ(販売データ)
・CSV形式:商品ID、販売日時、金額、店舗ID
・顧客データ
・SQLデータベース:会員ID、年齢、住所、購入履歴
・ECサイトのログ
・JSON形式:クリック履歴、検索キーワード、閲覧商品
・店舗のIoTセンサー
・Parquet形式:来店者数、滞在時間、温度センサー情報
・SNSデータ(外部APIから収集)
・テキスト形式:口コミ、レビュー、感情分析結果

上記のようにデータレイクは整形前のデータをとりあえずどんどん入れていくようなイメージになります。

データレイクとDWHの違いについて

データレイクのDWHの違いとしては、整形前か整形後の違いになります。
どちらもデータとしては膨大なデータ量ではあります。
以下違いについて箇条書きでまとめました。

【データレイク】
・全部のデータをとりあえずどんどんいれていく
 →イメージとして、スマホでとった写真をとりあえずそのまま残しているようなイメージ
・整理されていないので、データ活用としては難しい
【DWH】
・データを整理して、各フォルダで属性をまとめたデータ
 →イメージとして、撮った写真を「旅行」「会社」「プライベート」等種類を分けて保存するイメージ
・データが整理されているので、活用したいデータがどこにあるのかすぐに分かる

DWHの棲み分けは行われていない会社もある

自分がびっくりしたのですが、データレイクを整形して、そのまま活用している会社もあるようです。
要は、データのクレンジングはしているが、DWHのように定義されたテーブルを格納していないことです。

データレイクでも2つ種類があり、
・整形していないデータをそのままいれるデータレイク
・クレンジングしてデータを入れておくデータレイク

「勉強していたことと違うな。。」と思いましたが、確かに0→1でビッグデータ構築するとなるとかなり時間がかかりますね。。
そう考えると、DWH構築されているところは大企業、人数がかなりいる会社限定のように思えます。

まとめ

まとめとしてデータレイクは以下の意味でよく使われます。
・データをとりあえずどんどんいれていく格納庫
・動画、音声も格納することが可能
・WDHはデータレイクから整形したデータとして活用される
・データレイクからクレンジングしてデータ活用される会社もある

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?