本記事は、NTTデータ先端技術株式会社 デジタルソリューション事業部 データエンジニアリング担当が執筆するアドベントカレンダーの初日の投稿となります。
私たちは、名前の通り、データ活用によるデジタルトランスフォーメーションの実現のご支援をミッションに活動しており、このアドベントカレンダーもそういった観点を中心に記事を投稿していく予定です。
先頭バッターは言い出しっぺの私が責任を持って記事を書こうと思います。
。。。と言いつつ、忙しさにかまけてギリギリまでネタを作れなかったので、「データマネジメント国際認定」であるCDMPを1週間で準備して受験して来ましたので、そこで得られたものについて記載したいと思います。
データマネジメント国際標準 DMBOK
攻めのデータサイエンスに対して、守りとなるのがデータの運用を司るデータマネジメントです。
データマネジメントについては、DMBOK(the Data Management Body of Knowledge)というPMBOKのデータマネジメント版があり、これが網羅的な知識体系となります。
そして、このDMBOK、日本語版は電子版がなく書籍版のみでして、内容も物理もとっても重いものとなっています。
そして、この鈍器のようなDMBOKについて、読み切った勇者を認定する資格が存在します。
日本ではまだまだ知名度が低く情報が少ないですが、世界98カ国が7000名弱が認定を受けている、国際データマネジメント協会(DAMA)が認定するCDMP(Certified Data Management Professionals)です。
今回、この資格にチャレンジしてきましたので、その受験記と、受験勉強で感じたDMBOKと日本のデータ活用の現場のギャップについてお話したいと思います。
受験の詳細
受験申し込み
CDMPの公式ページがありますので、そちらから申し込みをします。
英語が母国語ではない人向けに、受験対象選択時にプルダウンでESL(English as a Second Language)版を選べるので、必ず選ぶようにしましょう。
通常の試験は90分ですが、ESL版は20分追加されます。
加えて、試験時間中にブラウザの翻訳機能で翻訳することが許されているのですが、こちらもESL版でないと許可されない可能性があるかと思います。
受験ルール
試験概要
CDMPには4つのレベルがありますが、いずれもData Managemet Fundamentals examという基礎試験を受けることから始まります。この記事は、この基礎試験の受験記になります。
https://cdmp.info/about/
まずは、試験の概要をざっくり記載します。
項目 | 内容 |
---|---|
試験時間 | 通常90分、ESL版120分 |
設問数 | 100問、全て5択問題 |
試験形式 | 在宅のみ(Honorlockでの監視) |
練習問題 | 試験料に含まれる |
試験監視ツール
試験は、Chrome ExtensionのHonorlockというツールで監視されます。
テストを受ける手順の中でインストールをする必要があります。
https://honorlock.com/
テスト開始時に、
- 開始時に顔の画像を撮る
- IDの画像を撮る(私はパスポートを使いました)
- 部屋の360度動画を撮る
を求められます。
加えて、テスト中は、
- 顔の映像を撮られ続ける
- 右クリックが禁止され、クリックするとアラートが上がる
- Chrome外クリックが禁止され、クリックするとアラートが上がる
- Chromeの新しいタブの立ち上げが禁止される
となり、自宅でも公正なテストの受験となります。
試験開始前に、本番と全く同じ手順でtestができますので、その点は安心です。
右クリックとウインドウ外クリックが禁止になりますので、それ以外の方法で翻訳するツールを使うようにしましょう。
持ち込み
オープンブックポリシーでは、「本」は 1冊のみ許可されます。 1冊とは、次のいずれかを意味するとのことです。
- 物理書籍の DMBoK2
- 電子書籍の DMBoK2
- ハードコピーのメモ
- デジタル版のノート
DMBoK またはメモのデジタルバージョンを使用することにした場合、それらはオフラインの別のデバイス上にある必要があります。
私は、電子物を持ち込むことが怖いということと、そもそも日本語は紙のDMBOKしかないため、日本語版のDMBOKを持ち込みました。(実際に、最後の見直しで結構使いました。)
勉強したこと
DMBOKを読む
とにもかくにも、まずはここからです。
受験された皆さんは英語版の方が良いと仰っている方もいらっしゃいましたが、私は英語が苦手+2冊用意するには高すぎるので、日本語版のみで戦いました。
実際に、日本語版ではニュアンスに苦労する場面もありました。
例えば、機械的に日本語翻訳しちゃうと"classicication"も"taxonomy"も"分類"になっちゃって、当初の意味が失われてしまうので、ちょこちょこ英語に戻って確認したりする必要があります。
英語で勉強し受験した方が、こういった単語のニュアンスでの失点は防げるとは思います。
、、、が、英語でDMBOKの鈍器を読むハードルは高すぎる!
加えて、日本語DMBOKについても、出題傾向が公表されているので、全ては読んではいません。
私は以前にDMBOKベースのコンサルティングのお仕事をしたことがあり、斜め読みをしていたので、出題傾向が高い、もしくは、普段触れていない、↓の赤字の部分だけを読み返しました。
これで読む量は半分になります。
章 | 出題率 |
---|---|
第1章 データマネジメント | 2% |
第2章 データ取扱倫理 | 2% |
第3章 データガバナンス | 11% |
第4章 データアーキテクチャ | 6% |
第5章 データモデリングとデザイン | 11% |
第6章 データストレージとオペレーション | 6% |
第7章 データセキュリティ | 6% |
第8章 データ統合と相互運用性 | 6% |
第9章 ドキュメントとコンテンツ管理 | 6% |
第10章 参照データとマスターデータ | 10% |
第11章 データウェアハウジングとビジネスインテリジェンス | 10% |
第12章 メタデータ管理 | 11% |
第13章 データ品質 | 11% |
第14章 ビッグデータとデータサイエンス | 2% |
第15章 データマネジメント成熟度アセスメント | |
第16章 データマネジメント組織と役割期待 | |
第17章 データマネジメントと組織の変革 |
模擬試験を受けまくる
CDMPは、試験料に模擬試験の代金が含まれます(模擬試験だけ買うこともできますが)。
模擬試験は、1問あたりの時間が本番と同じようになるよう、36分40問で設計されています。
私は、とりあえず、100点取って安心できるまで模擬試験は受けました。(試験も問題は200問からのランダム出題なので、7~8周で全ての問題は見れると思います。)
そして、模擬試験を受けると、当然ながら、DMBOKで読み飛ばした章の問題は解けなかったりします。
そこで、読み飛ばした章は解けなかった問題の当該部分をDMBOK本体で確認する作業はしておきました。
受験結果
申し込みをしてから1週間、DMBOK通読・模擬試験実施をし、模擬試験100点を契機に受験をしました。
結果、無事にAssociateの認定を受け、Practitionerの受験基準を満たすこともできました!!
試験は、ほぼDMBOKの章の順で問題が出てくるので、何について聞かれているのかは迷わないので親切でした。
模擬試験と同じ問題も10問くらい出てきて、その点はボーナスだったかなと思います。
DMBOKと日本のデータ活用現場のギャップ
すみません、ようやくタイトルの回収です。
いくつか、DMBOKには書いてあるけれど現場では見聞きしたことがなく、覚えるのに苦労した事柄を記載しておきます。
DMBOKの中には現場と乖離があるものはたくさんあるのですが、今日は特に「CDMPのテストによく出て引っかかってしまう」という観点でピックアップします。
データスチュワード
DMBOKにもCDMPにも、「データスチュワード」というロール、もしくは、データスチュワードを取り入れた「スチュワード制」という仕組みが言葉として多用されています。
この「データスチュワード」という仕事が日本では馴染みがないため、イメージがしにくく困ったものです。
「スチュワード」という仕事は、そもそも「他人の財産を管理する人」のことであり、データを財産と考えるDMBOKでは「他社を代表して組織のデータ(財産)を管理する人」を「データスチュワード」と呼んでいます。
組織の中では、攻めのFWであるデータサイエンティストに対して、守りのGKであるデータスチュワードという感じでしょうか。
今後、日本でもデータサイエンティスト同様に専門職として確立してくるのかなと考えています。
データガバナンス組織
CDO(チーフ・データ・オフィサー)を置く企業は日本でもちらほら見られるようになりましたが、DMBOKにて推奨されるデータマネジメント組織は、下図のようなもっと体系だったものです。(私の理解ですが。。。)
データガバナンスではあまり組織のイメージができなかったのですが、個人的にはISMS対応の組織のイメージが似ている気がして、そこに当てはめて覚えました。
ISMSも、役員が責任者となり、全社横断のISMS推進委員会がおり、各部門でISMS担当が実務を推進します。そして、それを横にいる内部監査チームが監査する、という形なので、同じような組織体系になるのかなと思いました。
欧米ではGDPRがあったりするので、日本のISMS対応と同じような位置付けなのかもしれませんね、そう考えると腑に落ちました。
ここまでの環境は難しくとも、昨今のデータリスクを鑑みると、いずれ日本でも現状よりもトップダウンでガバナンスを効かせられる組織にはなりそうですね。
参照データとマスターデータ
みなさんは、"参照データ"という言葉を聞いたことがありますでしょうか?
私はDMBOKに触れるまで聞いたことがなかったです。
それでは、定義を記載してみましょう。
定義 | 例 | |
---|---|---|
参照データ | 他のデータを特徴付けたり、データベース内のデータと外部のデータを関連付けたりするために使用されるデータ | 国コード、組織コード、注文ステータスコード |
マスターデータ | ビジネスエンティティ(従業員、顧客、製品等)に関するデータであり、業務トランザクションや業務データ分析に意味を与える | 顧客マスタ、製品マスタ、契約マスタ |
そうです、日本の現場では、この2つともが「マスターデータ」なのです!
普段の癖であやうく間違いそうになりますし、DMBOK的には参照データとマスターデータでマネジメントアプローチが異なっていたりします。
この辺りはテスト受験時の引っかかりポイントです。
メタデータマネジメント
メタデータと聞いて、どんなものを想像されますでしょうか?
私も、いくつかメタデータ整備施策に携わったり見聞きしたりしてきましたが、日本のメタデータ運用は「データ活用」のために「データの意味」を整備する施策が多いように感じます。
もちろん、これもメタデータマネジメントの重要な施策ですが、DMBOKの中では一側面でしかなく、むしろ、データ保護・データセキュリティのためのメタデータマネジメントの方が重要視されている印象を受けます。
例えば、どのテーブルのどのカラムが個人情報に当たるのか?をメタデータとして管理し、検索ができることが挙げられます。こうすることで、もし万が一、データに事故があった際も、そのリスク度合いが瞬時に把握することができます。
この点は、GDPRなどが存在する欧米の方が敏感なので、リスク管理としてのメタデータにも注意が払われているのかもしれません。
加えて、ビジネスメタデータ以外のメタデータも定義に含まれます。DMBOKの定義を見てみましょう。
メタデータの種類 | 説明 | 例 |
---|---|---|
ビジネスメタデータ | 概念、対象領域、エンティティ、属性に関する名称と定義に関する情報 | テーブルやカラムの定義、業務ルール、変換ルール、データモデルetc |
テクニカルメタデータ | データの技術的詳細、データを格納するシステム、およびシステム内やシステム間でテクニカルメタデータを移動するプロセスに関する情報 | 物理テーブルのテーブル名・カラム名、カラムのプロパティ、アクセス権、物理データモデル、ETLジョブ詳細、ファイルフォーマット情報etc |
オペレーショナルメタデータ | データの処理とアクセスの詳細に関する情報 | バッチプログラムのジョブ実行ログ、データ抽出結果と履歴、レポートとクエリのアクセスパターンや頻度、バックアップ規定etc |
テクニカルメタデータ、オペレーショナルメタデータもメタデータに含まれるのです。
例えば、「AWS Glueのデータ連携バッチの実行ログをAmazon CloudWatchで収集して可視化する」という仕組みを作っていたとして、DMBOK的にはこれも立派なメタデータ管理なのです。
このあたりの定義を理解しておかないと、試験では足をすくう問題があったりします。
おわりに
CDMPの受験についてと、日本のデータ活用現場とのギャップによる落とし穴について記載をしてみました。
今後、データマネジメントという分野は日本でもますます重要になると思いますし、CDMPという試験が注目を浴びる日もくるかと思いますので、そんな日に参考にして頂ければと思います。
個人的には、エンタープライズデータモデルやデータ品質などは、DMBOKの網羅的な考え方を現場に取り入れるとより良くなると考えているので、現場に活きる知見もあり決して無駄にはならない勉強だと考えています。