1
1

More than 1 year has passed since last update.

データウェアハウス層について整理してみた

Posted at

データウェアハウス層とは

データレイクにある生データを加工したものが置かれている場所

例:自社ECサイトの売上に付け加えて、サイト外での販売、自社外のWebサイトでの販売などの他の売上も結合したデータがある場所

DWH層を作る手順

データクレンジング

データクレンジングとは、データの欠損を埋めたり、重複削除や名寄せを行うこと

名寄せとは、複数のデータベースの中から、氏名、住所、電話番号等の情報を手がかりにして、同じ人物や同じ企業のデータを1つにまとめること

データクレンジングは、オリジナルのデータで複数のデータソースを統合できない場合に実施する

理想は大元のデータソースを修正すべきなので、一時的な処置として行う

データレイクでは絶対に行わない

スタースキーマの作成

スタースキーマとは、データベース内のデータを整理することで、理解や分析がしやすくなった多次元データモデルのこと

image.png
引用元: スタースキーマとは

データクレンジング後に行う

ファクトテーブルとディメンションテーブルを作成する

  • ファクトテーブルとは、イベントの発生ごとに一行で表現したテーブル
  • ディメンションテーブルとは、分析の切り口となる属性値を表現したテーブル

7W3Hの形で、属性を洗い出すことでディメンションテーブルは作成可能

共通指標

部署横断して問題が起きないように、部署間で同じ認識の指標を作ること

作成方法

  • 作成したスタースキーマを使う
  • モニタリングしたい指標は何なのか明確にして、ディメンションを使い集計

部署横断の共通指標はデータウェアハウス層で管理し、部署によって用途が異なるデータはデータマート層で管理する

ポイント

DWH層のデータを分析用DB(DWH製品)に置くべき

  • DWH製品はBIツールや表計算ソフトに参照されるように設計されているが、逆はそうではないため

DWH層で共通指標を集計すべき

  • 部署や部門ごとに指標の捉え方が異なるのは日常茶飯事
  • DWH層で共通指標を集計しておけば、今後の部署横断可能なデータ活用が容易になるため

早すぎる最適化に注意

  • データ活用が進んでいない段階でDWH層を作ることはできない
  • なぜなら、共通指標を作る事ができないから
  • 上記の場合はデータソースからデータレイク、データレイクからデータマートの両端を充実させ、データ活用を進めた後にDWH層を作る

参考文献

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1