背景・目的
私は、現在データエンジニアリングを生業としています。普段は、データ基盤の構築やパフォーマンスチューニングなどに従事しています。ビックデータの収集や、蓄積、分析などの環境構築の経験はそこそこありますが、データマネジメントについては、それほど経験がありません。
そのため、データマネジメントの知識やスキルを獲得するために、DAMAのCDMP(Certified Data Management Professional)試験の学習を通して学ぼうと思います。
CDMPは、DMBOK2(Data Management Body of Knowledge version2)から、14のトピック(11の知識領域、データ管理プロセス、倫理、ビッグデータ)で出題されるようです。
参考
Data Management Process – 2%
Big Data – 2%
Data Architecture – 6%
Document and Content Management – 6%
Data Ethics – 2%
Data Governance – 11%
Data Integration and Interoperability – 6%
Master and Reference Data Management – 10%
Data Modelling and Design – 11%
Data Quality – 11%
Data Security – 6%
Data Storage and Operations – 6%
Data Warehousing and Business Intelligence – 10%
Metadata Management – 11%
DMBOK本では、章立てとして17章に分けられています。
本ページでは「第1章.データマネジメント」について整理します。
まとめ
- データを活用して、ビジネスアウトカムを追求したいのはどこの組織でも同じ。しかし出来ている組織は少ない。それだけデータマネジメントは難しい。
- データは、他の資産と同様と考えられている。しかし独特の特性もある。それ故に固有のマネジメントが必要になる。
- このマネジメント方法を体系立てて説明しているのが、DMBOKであると理解しました。
概要
イントロ
データの価値について
- データとインフォメーション(以降、情報という。)の価値として以下のものがあり、継続的に価値を引き出すためにはマネジメントとリーダーシップが必要。
- 顧客、製品、サービスに関して新しい発見をもたらす。
- 組織を改革し、戦略的目標達成にも貢献する。
データマネジメントとは?
- 資産(データと情報)の価値を、提供・管理・守り・高めるために、ライフサイクルを通して計画・方針・スケジュール・手順等を開発、実施、監督すること。
データマネジメント・プロフェッショナルとは?
- データマネジメントのあらゆる局面で働く人達を指す。
- 例
- DB管理者、NW管理者、プログラマ等
- データスチュワード、データストラテジスト等
データマネジメントに求められるスキルと責任、意義
- データマネジメントの活動は後半に及ぶため、ITと非ITスキルが必要であり、データマネジメントの責任では、ITと非IT(業務)の両社が担い、互いに協力できるようにしなければならない。
- データマネジメントの意義は、組織がデータ資産(データと情報)から価値を得られるようにすること。
組織におけるデータマネジメントのゴール
- ステークホルダー(例は、以下の通り)の情報ニーズを理解し、サポートすること
- 自社
- 顧客・従業員
- ビジネスパートナー
- データ資産を取得し、保管し、保護し、健全性を担保する。
- データと情報の品質を担保する。
- ステークホルダーが保有するデータのプライバシーと機密性を確保する
- 不正、不適切なデータと情報へのアクセス、操作、仕様を防止する
- 企業が付加価値を創造するために、データを効果的に利用できるようにする。
本質的な概念
データとは?
- データマネジメントの原則は、デジタルだけではなく、紙などにも適用される。
- データは、何かを表現する手段だが、データそのものが何であるかを表現しているわけではない。
- データとは、何かが表現(解釈)されたものであると同時に、データによって何かが解釈された何かでもある。
- コンテキストが重要である。
データと情報
- 定義すると、インフォーメーション = コンテキスト + データになる。
- 一般的に、ピラミッドで以下のような構造を表すことがある。
- (最下層)データ
- インフォメーション
- ナレッジ
- (最上位)ウィズダム(知恵)
- しかし、このピラミッドでは、以下の問題があり、DMBOKではデータとインフォメーション(情報)を同じ様に取り扱う。
- データが存在することを前提にしているが、存在しない場合もあり、生成する必要がある。
- ピラミッド構造の順で表現した場合に、データを生成するナレッジが必要。
- データとインフォメーションは相互に依存している。(上下ではない。)
データマネジメントの原則
- データマネジメントでは、組織にどのようなデータがあり、それで何をしているのか?どう使えば組織の目標がうまく達成されるのか、わからなければならない。
- 以下にデータマネジメントの特徴と、原則を記載する。
原則 | 特徴 | 説明 | 備考 |
---|---|---|---|
効果的なデータマネジメントにはリーダーのコミットが不可欠 | - | 一連の複合的プロセスが絡んでおり、コーディングし強調し、確実に責務を果たさない限り効果を産まない。その実現には、管理スキルではなく、ビジョンや目的が必要でリーダーがそれにコミットすることが必要。 | |
データは価値を持つ | データは特有の性質を持つ | データは、使用しても失われない。そのために管理方法に影響を与える。 | |
データの価値は、経済的観点で評価可能であり評価されるべき | 組織がデータにまつわる意思決定の質を向上させたいなら、データの価値を定量化する一貫した方法を考え出す必要がある。 その場合、低品質なデータにかかるコストと、高品質なデータから得られる利益の両方を測定する。 |
||
データマネジメント要件は、ビジネス要件そのもの | データの管理は、データ品質の管理 | データマネジメントの主な目的は、データが目的に沿っていることを保証すること。 データ品質を管理するためには、ステークホルダーの品質要求事項を理解し、データがその要求に答えているかを測定する必要がある。 |
営業資料に使うデータか? IRの財務情報か? モデリングするためのデータか? など、目的によって保証すべき水準は違う。と理解した。 |
データの管理にはメタデータが必要 | 資産を管理するためのデータが必要。(従業員、勘定科目など) これをメタデータといいます。 メタデータは、データを生成し処理し、使用する様々なプロセスの中から生まれる。 |
||
データマネジメントには予め計画が必要 | どんな小さな組織でも、複雑なIT・業務プロセスがある。 望み通りの結果を得たければ、アーキテクチャやプロセスの観点から計画を立てるべき。 |
||
データマネジメント上の要件がIT上の決定を左右する | 組織のデータ要求はITによって、決まるのではなく、ITの力を借りて実現されるのであり、データマネジメントにはそのようなアプローチが必要。 | ||
データマネジメントには予め計画が必要 | データマネジメントは機能横断的な活動で、幅広いスキルや専門性が求められる | 全組織のデータを1つのチームで管理することができない。 データマネジメントには技術的、非技術なスキルと協調性が必要 |
|
データマネジメントには全社的には視点が必要 | 局所的ではなく、効率的に全社的に適用しなければならない。 | ||
データマネジメントには幅広い視点が必要 | データ利用者の変化に対応するため、データマネジメントは常に進化しなければならない。 | ||
データマネジメントはライフサイクル管理 | データは種類によってライフサイクルの性格が異なる。 | 管理に求められることも違ってくる。この違いを認識し様々なデータライフサイクルの要求に柔軟に応えられる必要がある。 | |
データに伴うリスク管理もデータマネジメントに含まれる。 | 組織の資産であると同時に、リスクでもある。 消失、盗まれたり、誤用されるリスクが有る。 データを利用するに当たり倫理的な意味も考慮すべきである。データに関するリスクはデータライフサイクルの一環として管理されなければならない。 |
良いことでばかりではないということ。 |
データマネジメントの課題
- データマネジメントには、明確な特徴がありそのためのデータマネジメントの原則に従うときに、発生する課題がある。
項目 | 特徴 | 課題 | 備考 |
---|---|---|---|
データは、他の資産と異なる | データは有形ではないが、耐久性をもたせることができる。無くならない。 簡単にコピーし、転送できる。 |
・データの所有者、組織はどれだけのデータを保有しているのか? ・データが間違って使われないか? ・データを重複して使われないか? ・重複して持つリスクはなにか? ・品質を決めて、それを守らせるにはどう管理するか? |
データは失われづらい、分かりづらい特徴があり、管理が他の資産と異なる。 |
データ評価 | 価値=発生するコストとそこから生まれる恩恵の差。 株式等は明確だが、データの場合は、コストと恩恵両方を計算する基準がないため複雑になる。 |
データを評価するアプローチを始めるにあたり、組織内で一貫して適用できる汎用的なコストと恩恵の分類を明確にする。 分類例 ・取得と保存のコスト ・喪失したデータの復元コスト ・欠落した場合の組織への影響 ・データに関連するリスク軽減コストとリスクを抱えることの潜在的コスト ・データ改善にかかるコスト ・より高品質なデータから受ける恩恵 ・競合他社からデータから受ける恩恵 ・競合他社がデータに支払う価値 ・データの売却により得られる価値 ・斬新な方法でデータを利用した場合に得られる価値 |
データの価値とそれを管理するコストが見えづらい特徴がある。 まずは基準を設けるための分類から始める。 つまり、資産価値を明確にすること。 |
データ品質 | データが高品質であることを保証することが、データマネジメントの根幹 ITシステムで生み出されたデータがゴミであることを自覚するのは、利用者。 生み出す方は分かりづらい。 |
品質の低いデータには、コストがかかる。(※1) 間接的なものであり測定が困難であるものが多い。 コストの例は以下の通り。 ・データの破棄と再構築コスト ・一時的な回避策や目に見えない修正作業コスト ・組織の非効率性や非生産性コスト ・仕事満足度の低下 ・顧客満足度の低下 ・機会損失(革新ができなくなることを含む) ・法令遵守にかかるコストまたは罰金 ・悪評、風評被害のコスト 高品質なデータから得られる恩恵は以下の通り。 ・顧客体験の改善 ・より高い生産性 ・リスクの低減 ・機会を逃さずに実行できる能力 ・収益の増加 ・顧客、製品、業務プロセスなどの本質を見極め、商機を掴むことから得られる競争上の優位性 |
データの品質管理は、業務プロセスやシステムに品質を組み込む必要がある。 確かに、人が適当に入れたデータをシステムで自動的に名寄せするなど、 システムだけではどうにも出ないケースがあった。 業務プロセスから変えていかなければならない典型的な例。 |
より高品質なデータを目指した計画 | データから偶然に価値が生まれることはない. | より高品質なデータを目指すには、戦略的なアプローチが必要だが、組織からの圧力や、時間的、金銭的なプレッシャーが絶えない。 長期的、短期的な目標のバランスをとる必要があり、両社のトレードオフを明確にすれば、より良い意思決定ができるようになる。 |
データの品質を上げるためには、計画することが重要。 |
メタデータとデータマネジメント | メタデータにより、データ、データライフサイクル、データを使用する複雑なシステムを理解できるようになる。 メタデータもデータの一種。 データとして管理する必要があるが、簡単ではない。 |
データを上手く管理していない組織は、大抵はメタデータも管理してない。 以下のような内容をメタデータとして記述する必要がある。 ・どんなデータが存在するか ・何を表しているか ・どの様に分類されているか ・どこから来ているか ・どこに移動しているか ・どう活用されているか ・それに伴いどう成長するか ・誰が使えて、誰が使えないか。 ・どの程度品質か |
メタデータ管理がデータマネジメント全体を改善する第一歩になる。 |
データマネジメントは機能横断的である | データマネジメントは複雑なプロセスである。 | データライフサイクルの各フェーズを担当するチームによって、様々な場所で管理される。 様々な要素がどう絡み合っているかを認識してもらった上で、共通の目標に向かい協力してもらう必要がある。 |
データマネジメントは組織全体の取り組みとして考える必要がある。各組織で与えられた業務も大事だが、それぞれが全体視点で考えないと、データマネジメントサイクルが回らない。 |
全社的な視点を確立する | データは組織を横断する横軸の一つである。 データは各組織(マーケ、営業、運用)の業務(縦)の流れを横断する。 |
データは、業務プロセスの副産物として見られることが多く、当面必要とされるニーズを超えてデータの利用計画が立案されることはない。 データは組織内の様々な場所で生成され、同じコンセプトの表現も部門によって異なる。表面上の違いが組織全体でデータ管理する上での課題になる。 |
データが全社的なものという認識が必要。 |
他の視点を考慮する | データは組織内だけではなく、外部からも取得しているケースがある | 国や業界の様々な法令や遵守事項を考慮する必要がある。 データを生成する人は、そのデータを利用している人たちを忘れがち。データがどの様に使用されているかわかれば、データライフサイクルの立案が可能となる。 その結果データ品質も向上できる。また誤用の危険性も低減できる。 |
データ生成元では、データの重要性を意識しないことが多い。これを可視化し認識してもらうことが重要。 |
データライフサイクル | データにもライフサイクルがある。 | データライフサイクルは、製品ライフサイクルに基づく。 それをシステム開発ライフサイクルと混同してはいけない。 |
適切なデータ管理は、組織がデータをどう活用するかのビジョンを持ち戦略的にデータデータを管理する。 |
多様な種類のデータ | データの種類によって、ライフサイクル管理の要求が異なるため、データ管理は更に複雑になる。 | データの種類によって、要件が異なり、関わるリスクも異なり、組織内の役割も異なる。 | |
データとリスク | データは価値だけではなくてリスクを生む。 | 以前にもまして、消費者は個人データがどの様に利用されているかを意識している。 個人情報が、保護されてプライバシーが尊重されることを期待している。 データマネジメントのプロフェッショナルと同様に、ビジネス戦略に関わるプロがステークホルダーが考えなくてはならない範囲が以前よりも広くなっている。 |
|
データマネジメントとIT | データマネジメントの活動は幅広く、ITと業務の両方のスキルが必要になる。 | ITとデータの管理は異なる。 組織がITに関して決定を下す際に、それがデータにどのような影響を与えるか見極める必要がある。 |
ITを先に決めずに、事業戦略に沿ってデータ要件を決めて、そこからITを決める。 |
効果的なデータマネジメントにはリーダーシップとコミットメントが必要 | 自分たちがどのようなデータを持っているか 業務にどのようなデータが最も重要なのか分かっていない。 |
データとITを混同し、データマネジメントの仕事を過小評価しがち。 |
成功に導くには、ビジョン、計画、変革への意欲が必要。 データマネジメントが成功するには、業務主導で進め、データに対して背組織が戦略的に取り組めるように、企業文化を変革していくことが求められる。 |
※1 品質の低いデータにかかるコストについて
- データの品質問題に対処するためにかかるコストは、収益の10%〜30%程度と専門家はいう。
- IBMでは、アメリカでは低品質なデータのために費やしたコストは、2016年で3.1兆ドルと推定している。
データマネジメント戦略
-
データ戦略の範囲は、情報を利用することで競争上の優位性を確保し、企業の目標を達成するための事業計画が含まれます。
-
データ戦略で考えることは、事業戦略に不可欠なデータの必要性を理解した上で、データ戦略を考えなければならない。考える際には、以下のようなことを考える必要がある。
- 組織にどのようなデータが必要か?
- それをどの様に取得するのか?
- 時間の経過とともにどの様に管理し、信頼性を高めるのか?
- どう活用するのか?
-
データ戦略には、それをサポートするデータマネジメントプログラムが必要です。
- 明白なリスク、暗黙なリスクを軽減させる。
- データの品質、健全性、アクセス、セキュリティを維持し改善していく計画を立てる。
データマネジメント戦略の要素
以下のようなものが考えられるようです。
- データマネジメントに対する説得力のあるビジョン
- 具体例を含んだデータマネジメントの業務提案概要
- 基本理念、価値観、マネジメントの視点
- データマネジメントの使命と長期的な目標
- データマネジメントの成功度合いを評価する基準
- 短期的SMART(※1)データマネジメント・プログラムの達成目標
- データマネジメントの役割と組織の説明、責任と決定権の概要
- データマネジメントプログラムの要素と構想の説明
- 実施範囲を定めた優先プログラム
- プロジェクトや、アクション項目を含む実施ロードマップの草案
※1 SMART
- Specific、Measurable、Actionable、Realistic、Time-Boundの略
- 具体的で、計測可能で、実行可能で、現実的で、期限がある。
データマネジメント・フレームワーク
データマネジメントは、相互に関係する機能群があり、それぞれ独自の目標、活動、責任範囲がある。
データマネジメントプロフェッショナルは、データ資産から価値を得ようとするときの課題を解決しなければならない。
そのときに、以下のように様々なバランスを考えなければならない。
- 戦略的な目標と、実施目標とのバランス
- 特定の業務とITのバランス
- リスクとコンプライアンスのバランス
さらに、人によって、データの解釈と品質の解釈が異なることも考慮しなければならない。
様々な側面に気を配る必要があるため、フレームワークが有効的である。
戦略的アラインメントモデル
中心に、データとインフォメーションとの関係がある。インフォメーションは、殆どの場合、事業戦略やデータを使った業務遂行に関連している。
データは、ITとデータアクセス用システムの物理的な管理とサポートプロセスに関連している。
アムステルダムインフォメーションモデル
業務とITの整合性という課題を戦略的な観点から表現している。DMBOKフレームワークに近い気がする。
DAMA-DMBOKフレームワーク
3つの資格表現がDAMAGEのデータマネジメント・フレームワークを表している。
DAMAホイール図
※出典「DAMA-日本支部のページ」から抜粋。
DAMAホイールズは、データマネジメントの知識領域を定義しているものです。
中心に、データガバナンスが置かれている。ガバナンスは、機能内部の一貫性と機能間のバランスを取るために必要です。
環境要因ヘキサゴン図
DMBOKコンテキスト図を読むためのキーとなるもの。人、プロセス、技術の関係性を表す。
知識領域コンテキスト図
知識領域の詳細を記述している。ステークホルダーの要求を満たす成果物アクティビティを中心に描いている。
(これは、他にも応用が効きそうなので後ほど整理する。)
DMBOKピラミッド
Peter Aikenのフレームワークは、DMBOKの機能領域を使用して、多くの組織が置かれている状況を説明している。
以下の論理的ステップにまとめられている。
- フェーズ1
- 組織はまずDB機能を含むアプリケーションを購入する。データモデリング、デザイン、ストレージ、セキュリティの作業を開始する出発点。
- システムが、このIT環境とデータを使って機能するために、統合と相互運用性に関する作業が必要
- フェーズ2
- アプリケーションの運用を始めると、持っているデータの品質に問題があることに気づく。
- より高品質なデータを取得するには、信頼性の高いメタデータと一貫したデータアーキテクチャが必要になる。
- フェーズ3
- 以下の管理は、統制を取るべき実務である。そのためには、データマネジメント活動に構造的なサポートを提供するためのガバナンスが必要になる。
- データ品質
- メタデータ
- アーキテクチャの管理
- データガバナンスによって、以下のような戦略的な取り組みが可能になる。
- ドキュメント
- コンテンツ管理
- 参照データ管理
- マスターデータ管理
- データウェアハウジング
- ビジネスインテリジェンス
- 以下の管理は、統制を取るべき実務である。そのためには、データマネジメント活動に構造的なサポートを提供するためのガバナンスが必要になる。
- フェーズ4
- 組織は適切に管理されたデータから得られる恩恵を活かして、分析能力を高める。
考察
- データマネジメントの原則や課題など、個人的には「あるある」と頷くものもあれば、イマイチ理解が出来ないものもあります。今後、読み進めていくことで解像度が上がると信じて先に進もうと思います。
参考