こちらを読んで
データマートについて
データマートとは
組織の単一の機能領域に焦点を当て、データウェアハウスに格納されたデータの一部分が含まれたデータベース
- 組織において、特定のチームや部署 (財務、マーケティング、営業など) のニーズに対応したデータウェアハウス
- 縮小版データウェアハウス
データマートの特徴
データマートのデータの定義は、単一の主題エキスパートによってされる
メリット
- 組織内の特定のグループにとって有益
- データウェアハウスと比較してデータ量が削減されていてレスポンスが速い
- データウェアハウスと比較して構成がシンプル
- データウェアハウスと比較して構築コストが低い
- データウェアハウスと比較して変更が容易
デメリット
- 多くの場合、企業は利益を得ることなく異種で無関係なデータマートを作成するので維持に大きなコストがかかる
- データセットが限られているため全社的な分析を行うことはできない
データマートの種類
大別すると3つ
- 従属データマート
- 独立データマート
- ハイブリットデータマート
従属データマート
単一のデータウェアハウスから組織のデータを調達する
1つ以上を構築する場合はそれぞれがデータウェアハウスと依存関係にあるデータマートとして構築する
独立データマート
中央のデータウェアハウスを使用せずに構築する
- 組織内の小さなグループにとっては理想的
- 入力も分析も自律的
ハイブリットデータマート
データウェアハウスとは別にソースからの入力を組み合わせる
- 新しいグループや製品を組織に追加した後などに役立つ
- より特定の用途でデータをまとめ上げたい時等
データマートの作成手順
全体フロー
- 設計
- DB構築
- ETL
- インターフェース構築
- 運用
設計
ビジネス、技術要件を収集し、データソースを特定する。
-
タスク
- データの適切なサブセットを選択する。
- データマートの論理的および物理的構造を設計する。
-
データの分類基準
- 日付
- ビジネスユニットまたは機能ユニット
- 地理
- 上記の組み合わせ
-
必要なもの
- 紙とペン
- UMLやER図を作成し論理->物理と設計しメタデータを設定する
DB構築
物理データベースと論理構造を作成する
-
タスク
- 設計に基づいたテーブル、インデックス、ビューなどを作成する
-
必要なもの
- RDBMS
-
必要機能
- ストレージ管理
- 高速・データアクセス
- バックアップ・復元機能
- マルチユーザー・サポート(複数アクセス考慮)
- セキュリティ(アクセス権限制御)
ETL
データマート内にデータを移入する
-
タスク
- ソースデータの抽出
- ソース・データからターゲット・データへのマッピング
- データのクリーニングと変換操作
- データマートへのデータのロード
- メタデータの作成と保存
-
必要なもの
- ETLツール
インターフェース構築
データを照会し、レポート、チャートを作成できるようにする
エンド・ユーザーがデータベースにクエリーを送信し、クエリーの結果を表示できるようにする
- タスク
- データベース構造とオブジェクト名をビジネス用語に変換するメタレイヤーを設定する
- 必要に応じてAPIやインターフェースをセットアップする
運用
継続的に利用できるようにする
- タスク
- ユーザー・アクセス管理
- 最適化・調整によるパフォーマンスの向上
- 新しいデータの追加、メンテナンス
- 可用性確保(復旧計画)
データマートの非機能要件
- データマートのソースは、部門別に構成されている必要がある
- データマートの実装サイクルは数週間、数ヶ月の短期間で測定する必要がある
- データマートの実装が複雑になる可能性があるため、計画と設計段階ですべての利害関係者を関与させることが重要
- ハードウェア/ソフトウェア、ネットワーキング、インプリメンテーションのコストを計画に正確に計上する必要
- 追加のソフトウェアを必要とすることが多いので、追加分の処理能力とディスク・ストレージ要件を評価する
- データマートにデータを転送するために必要なデータ量を処理するのに十分なネットワーク容量を確保する
書籍情報
クリシュナルンタ, データウェアハウジングを1日で学ぶ
https://amzn.to/2VNt4f0
雑感
この人の書いている本が色々と入りに良さそう