ビッグデータ
データマネジメント

ビッグデータ、IoT、AIを取り入れたいならデータマネジメントについて知るべき

はじめに

ビッグデータ、IoT、AIとデータの利活用に関するバズワードが飛び交う昨今、データの利活用を進めるにあたり欠かせない活動の一つにデータマネジメントがあります。

この記事では、データマネジメントとはなにか、そして、なぜデータの利活用にデータマネジメントが必要なのかを解説します。

データマネジメントとは

データマネジメントとは、文字通りデータをマネジメントする活動です。データマネジメントに関する知識体系はDMBOK (Data Management Body Of Knowledge)にまとめられています。

しかしながら、DMBOKから学習を始めても、データマネジメントの必要性を感じることは困難でしょう。DMBOKでデータマネジメントは以下のように定義されています。

データと情報資産の価値を獲得し、統制し、保護し、提供し、向上させるためのポリシー、実践、プロジェクトについて計画し、実行し、監視する活動である。

小難しくてわかりにくいですね。しかし、データマネジメント自体は非常に身近なものなんです。データマネジメントの必要性は、関連する事例を見た方がよくわかります。

データマネジメントに関する事例

事例1: Facebookの個人情報流出問題

先日、選挙コンサルティング会社のケンブリッジ・アナリティカ (CA) が、Facebookユーザ約5,000万人分のデータを取得していたという事件がありました。これにより、Facebookの株は大幅に下落しました (フェイスブック個人情報利用、米連邦取引委が調査=報道) 。

これは、データマネジメント中のデータガバナンスに関する好例です。近年では、多くの企業がビッグデータを保持しており、企業間のデータ連携を進めています。2017年10月にはデータ流通推進協議会が設立され、よりこの動きが促進されると思われます。

企業間でデータ連携を進める際、きちんと統制 (ガバナンス) が取れていないと、個人情報保護法や社内の規定を破ってしまい、上述のような問題が発生する恐れがあります。法務部門がよしなに対応してくれることを期待するかも知れませんが、基本的にビッグデータは情報システム部門などのエンジニアが管轄しているため、法務部門の専門外になっていることも多いでしょう。しかし、EU一般データ保護規則 (GDPR)など、ルールは日々アップデートされていくため、なんとかして追従する必要があります。

データの統制は、法務部門や情報システム部門などの既存組織を横断して行われる必要がでてきます。このため、データマネジメントが必要となるわけです。

事例2: 72時間ホンネテレビの視聴数と視聴者数

AbemaTVで2017年11月に72時間ホンネテレビが放送された後、サイバーエージェントは「ホンネテレビが7400万の視聴数を記録した」と発表しました。これに対して、いくつかのメディアが「元SMAP3人の「ホンネテレビ」7400万視聴も、「見た人」はもっと少ない」ということを指摘しました。サイバーエージェントが公開した視聴数は、ザッピングでもアプリのオンオフでもカウントアップされる値であり、7400万という数は盛られているというわけです。

Tableau Conference On Tour 2017で、サイバーエージェントは、社内では視聴数ではなく5分間視聴ユーザ数を見ていると発表していました。また、サイバーエージェントのIRでは、Google AnalyticsベースのMAU、WAUを使用しています。つまり、データを見る相手に合わせてコントロールしているわけです。

サイバーエージェントのように数字を上手くコントロールできればいいのですが、ITリテラシーや数値への馴染みがない人がデータを扱うと急に危険になります。自社のサービスや商品の価値を見誤り、誤った意思決定に繋がる可能性があります。例えば、AbemaTVはザッピングが前提になるので、5分間視聴数をもとに企画しなければ、誤った番組編成を行ってしまうでしょう。

数字は嘘をつきませんが、数字で嘘をつくことは容易です。こういった嘘に振り回されないために、それを管理することが必要となるわけです。

事例3: DeNA「WELQ」休止問題

2016年にDeNAの医療系まとめサイトWELQで不正確な記事や著作権無視の転用が次々と見つかり、サービスが休止に追い込まれるという事件がありました (参考: DeNA「WELQ(ウェルク)」休止…まとめサイトの問題点と背景は)。

こうなった原因は様々かと思いますが、誤った成果至上主義が裏で蔓延していたのではないかと想像します。ニュースサイトは主に PV (ページビュー) や CVR (コンバージョン率) などを成果指標に用いますが、これを稼ごうとするとエロ・グロ・ナンセンスの記事が量産されることになります。眉唾な民間療法や健康食品、ダイエットみたいなものばかりになり、行き過ぎると途端に医療系サイトとしての信頼を失います。

事業責任者が、売上に貢献する指標を KPI (Key Performance Indicator) にしたいというのは非常に自然なものです。だからこそ、その KPI が企業にとって好ましいものかを監督する第三者が必要になります。

事例4: 日本電信電話株式会社かNTTか

日頃データに触れない人は、データを利活用するためには継続してデータのクオリティを維持しなければならないという感覚がわかりません。

例えば、あなたが日本電信電話株式会社に関する全データを集める業務を任されたとしましょう。「日本電信電話株式会社に関する全データを集める業務」だったので、社内の管理システムで取引先欄に「日本電信電話株式会社」と入力し、でてきたデータをまとめて上長に提出しました。本当にこれで問題なかったのでしょうか。もしかすると、管理システムの中には「NTT」や「Nippon Telegraph and Telephone Corporation」となっているデータもあるかもしれません。さらには、全角文字と半角文字が混じっているかもしれません。

例えば、ニコニコ動画や Pixiv といった CGM (Consumer Generated Media) サイトの動画や画像を使って、AI に学習をさせてみるとしましょう。そのコンテンツがどういった属性をもつのかを、タグ情報を正解データとして学習させたとして、本当に問題ないでしょうか。関係ないタグや typo、学習に含めたくはないタグが多数混ざっていることでしょう。

こういったデータのクオリティに関する問題は、事業横断でデータの利活用をしたいとなった際に特に問題になります。このために、横串でデータのクオリティを維持するための指針などを取り決める役職が必要となるわけです。

おわりに

データマネジメントの必要性について理解いただけたでしょうか。

現在、Yahoo! JAPANリクルートなど多くの企業がデータマネジメントに関心を寄せています。

事例を見ていただくとわかる通り、データマネジメントは、IT部門、ビジネス部門、コーポレート部門のすべての領域に跨がる幅広の知識と組織体制が必要というネックがあります。しかし、ビッグデータ、IoT、AIを取り入れようと思うと必要になる活動です。この記事で、一つでも多くの組織が泥臭い活動の必要性に目を向けていただければ幸いです。

今後はデータマネジメントそのもののノウハウについても記事にできればと思っています。

追記: データマネジメントノウハウについてのリンク集を追加していきます。