はじめに
以前の記事で、Data Vault 2.0 や ELT を紹介しました。中でも Data Vault 2.0 に関しては、特殊なデータモデルや独自アーキテクチャを扱う基盤を、一から開発・構築するのには至難の業です。
そこで朗報です。Yellowfin と同じ Idera グループの WhereScape 社が、ELT 上で Data Vault 2.0 の設計・運用を担うソフトウェア Wherescape を提供しています。
WhereScape 概要
WhereScape の役割を一言で説明すると、DWH の構築です。データソースからデータを収集し、スキーマを変換しながら、スタースキーマ、スノーフレーク、Data Vault など、DWH が参照するためのスキーマを構築します。
モジュール
その役割を提供するために、WhereScape は、3D、RED、Data Vault Express (DVE) の 3 機能で構成されます。それぞれの役割は大まかに以下の感じです。
機能 | 役割 |
---|---|
3D | ・データソース探索 (リバースプロキシー) ・データプロファイリング ・データモデリング ・メタデータ生成 |
RED | ・実行プロシージャの生成 ・スケジュール実行 |
DVE | ・Data Vault データモデリング |
なお、WhereScape 自体、実データは管理しません。メタデータだけを管理し、実際の処理は全て外部のデータベースに委譲します。
処理の流れ
下記イメージは、実行環境である WhereScape RED の機能概要を説明する目的で、プレゼン資料などに使われるものです。
左から順を追って説明します。
- DATA SOURCES から データを LOADING し、DATA TRANSFORM でデータ構造を変換したものを、DATA FOUNDATION に格納します。
- DATA FOUNDATIONでは、中間テーブルが、DATA STORE/LAKE、DATA VAULT、3NF などの構造で管理されます。
- さらに、BUSINESS TRANSFORM でデータ構造が変換され、END USER LAYER で STAR SCHEMA や BUSINESS VAULT など、目的に応じたデータ構造で管理されます。
- BI や ANALYTICS TOOLS は、END USER LAYER のデータにアクセスし、データを可視化・分析します。
- 先述の通り、WhereScape はメタデータだけを管理します。メタデータをもとに、データのロード、変換、生成などに関わるスクリプトやプロシージャを生成し、これらの実行を外部データベースに委譲します。
簡易イメージ
更に簡素化したイメージが下記です。
・イメージ下部に示される WhereScape は、外部データベースのメタデータを管理します。メタデータをもとに生成されたスクリプトで、外部データベースに対してデータのロードや変換などの実行を委譲します。
・データのロードや変換の実処理は、全て外部データベースのリソースを使って実行するため、パフォーマンスも外部データベースのスペックに依存する形です。
・クラウド上のデータベースの処理性能を活用できることから、データ量の多い処理を行う場面で強みを発揮します。いわゆる ELT です。
WhereScape 操作
Data Vault データモデリングの作成を前提とした操作手順を、画面イメージと併せて説明します。
データーソース
データソースにアクセスし、構造を可視化して確認します。併せて、詳細なプロファイルを作成することも可能です。
リバースエンジニアリングとしての役割も果たします。
構造変換
ステージングレイヤを介して、データを変換していきます。
DWH が取り扱えるように、Data Vault データモデリングを生成します。
データのロードや変換は、全てメタデータをもとに作成されたスクリプトやプロシージャを WhereScape から実行し、実際の処理は外部データベースに委譲します。
スケジュール実行
この処理をスケジューリング実行します。WhereScape のスケジュール機能でなく、外部のスケジュール機能を使って実行することも可能です。
最後に
手短に WhereScape を紹介いたしました。なかなか奥の深い製品で、簡単に説明しきれるものではありません。
興味を持たれた方は、是非 Yellowfin 営業担当までご連絡ください。24 時間 365 日受け付けています。
では皆様、良いデータ分析を!