データウェアハウスに関する基本的な内容をまとめてみたものです。データウェアハウスに関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
[BIとは何か] (https://www.techcrowd.jp/bi/whatisbi/)
[業務系のトランザクション処理とBIとの違い] (https://www.techcrowd.jp/bi/whatisbi/)
大量なデータの中から組織運営に必要なデータを取り出して加工するのが、業務系のトランザクション処理です。業務系トランザクション処理は、ただのデータから意味のある情報に作り出します。
しかし、業務系トランザクション処理で加工された情報は定型的なオペレーションには役立ちますが、業務上の意思決定を行う人にとっては、必ずしも必要なものばかりではありません。
そのため、データを加工した情報をさらに取捨選択して、意思決定者の必要とする判断材料を作り出すBI(ジネス・インテリジェンス)が必要となるのです。
[BI: さまざまな視点からの分析や非定型分析を行うのが特徴] (https://www.techcrowd.jp/bi/whatisbi/)
データ分析は、
・分類
・要約
・比較
などの操作を中心として行いますが、さまざまなデータを比較して可視化する事と、どのような傾向があるのか・注意するべきデータが存在するのかといった傾向を可視化する事が重要です。
このように、BIではさまざまな視点からの分析が必要となるため、データを同じような分析を繰り返すだけではなく、非定型な分析も行わなくてはなりません。
[大規模データを多次元に分析するための手順] (https://www.techcrowd.jp/bi/whatisbi/)
数多くのデータを組み合わせて、多次元の分析を行うのがBIの特徴です。
多次元の分析の基本となるドリルダウン・スライシング・ダイシングを用いて、有効な情報を入手します。
ドリルダウン
ディメンション(集計項目)ごとのデータ集計の階層を変更して、データを掘り下げる操作です。
スライシング
2次元の表の横軸と縦軸にディメンションを指定して集計値を参照する事で、対象となるデータを絞り込みます
ダイシング
サイコロを転がすように使用するディメンションを入れ替える事で、異なる表を表示する操作です
[BIのシステム構成と処理の流れ] (https://www.techcrowd.jp/bi/bisystem/)
BIシステム構成は、
・データの変換、抽出、ロードを行うETL
・データを格納するDWH(データウェアハウス)
・データを分析して可視化するBIツール
となります。
業務システムなどで使用している各種データソースを、ETLツールでフォーマットを整えてからDWHに格納し、その後にBIツールで分析を行います。
[DWHのデータ構造とデータモデル] (https://www.techcrowd.jp/bi/bisystem/)
業務システムのデータを、ETLツールを使ってからBIシステムに取り込むのは、DWHで扱いやすいようなデータ形式にするためです。
如何に効率良くDWHを利用出来るかが、BIを使う時に重要となります。
特にDWHを使用する時に注意するべきなのが、
・OLAPの種類
・スタースキーマ
です。
OLAPの種類はR-OLAPとM-OLAPに大別出来ますが、OLAPの種類によってデータ構造が異なります。
そして、ファクトテーブルとディメンションテーブルからなるスタースキーマが、DWHのデータモデルを特徴付ける要素となっていますので、DWHを構築する際には理解しておかなくてはならない概念です。
[データウェアハウスの論理設計とスタースキーマ] (https://www.techcrowd.jp/bi/starschema/)
BIシステムにおいて大量のデータを扱うデータウェアハウス(DWH)は、整合性を保ちつつ検索処理の速度を向上させる事が重要です。
この要件を満たす論理設計をするためには、DWHの特徴であるスタースキーマとサロゲートキーの仕組みを理解しておかなくてはなりません。
[スタースキーマ] (https://www.techcrowd.jp/bi/starschema/)
スタースキーマとは、下記のふたつから構成されるスキーマです。
・分析対象となる数値データを格納したファクトテーブル
・分析の切り口となるデータを格納したディメンジョンテーブル
ファクトテーブルを中心として、その周囲にディメンジョンテーブルが星形に関連付けられる事からスタースキーマと呼ばれます。
スタースキーマには、
・構造がシンプルである事
・データ量を抑える事が出来る
などのメリットが存在します。
[サロゲートキー] (https://www.techcrowd.jp/bi/starschema/)
サロゲートキーは代理キーとも呼ばれるもので、DWHのファクトテーブルとディメンジョンテーブルを関連付けるために使用されます。
主キーだけしか使用しない場合は、DWH内のデータに変化があった時に整合性がとれなくなる事もありますが、サロゲートキーを使う事でデータ間の関係を正常に保つのに役立ちます。