#はじめに
この記事は「企業におけるデータ分析にあたり、データマネジメントも合わせて計画しよう」というお話です。
昨今のデータサイエンスやAIブームに伴い、データ分析に裏付けられたビジネス施策への期待がますます高まっていますね。ビジネスに話を移す前に、分かりやすいケースとしてスポーツ界での活用を見てみましょう。
2011年に映画化された「マネーボール」では、統計データを用いて弱小球団を再建するストーリーで話題になりました。今年の日本シリーズを3連覇で制したソフトバンクホークスは、最もデータを活用している球団と言われています。本拠地ヤフオクドームにAIトラッキングシステムを導入し、”配球傾向”、”打者の得意なコース”、”苦手な球種”といったデータを収集し、対戦相手ごとの戦略と試合運びに活用しているそうです[*1]。
#ビジネスでのデータ活用
そんなスポーツ界と同様にビジネスでもデータ活用が試みられています。先進の例としてUber社のデータ活用があります。“需要予測”、“配車最適化”、“ダイナミックプライシング”、“解約予測”、“レコメンド”といった各種データ活用を駆使し、競争優位のポジションをキープしています[*2]。
多くの企業で試行されるデータ活用ですが、期待されるような成果は出ているでしょうか?少し前ですが、2014年情報通信白書[*3]にて、5割程度の企業が何らかの効果があったと回答していますが、しっかりした(10%より大きな)効果があったと回答した企業は3割程度にまで減ります。同書の「データ利用における課題」を見ると、課題のトップ5が次のようになっています。
①データ利用による費用対効果が分かりにくい
②データが散在していて分析できない・しにくい
③分析・利用する体制が社内にない
④どのように利用してよいか分からない
⑤データの分析・利用に費用がかかる
これらの課題は②、⑤の物理的な課題と、①、③、④の組織的/人的な課題に分類できると思います。まずは前者の物理的なデータに起因する課題について見て行きます。
#企業システムのデータは分析目的で生成されていない
データサイエンティストの作業の7割が、データ整備のためのデータ前処理であるという話が定説になっています[*4]。
企業システムのデータを全社横断的に分析しようとすると、各業務システムごとにデータ構造の違い、意味のゆらぎ、単位の違いなどがあり、それらの整合性を取りデータを収集する必要があります。また、1つの業務システムのデータについても、データの誤入力、未入力、過去データの欠損などがあり、それらのデータ補正(以降 データクレンジング)を行う必要があります。
データを分析する前に、データ収集とデータクレンジングといったデータ前処理を行う必要があり、その処理作業には多くの時間がかかります。なぜこのような状況が生じるのでしょうか?
データ分析で成功しているスポーツとビジネスを比較して考えてみます。分析対象としてのスポーツを考えると、その対象は限定的で形態の変化が緩やかと言えないでしょうか。例えば、プロ野球は、ベースボールスタジアムの固定的なフィールドを観察対象とし、野球の試合運びに関わるルールは大きく変わりませんね。
一方でビジネスは、対象が不定で変化も早いものです。毎年のように事業が見直され、会計基準、税制、個人情報取り扱い基準などビジネスルールも常に変化しています。それは、グローバル経済活動が常に変化し、テクノロジの進化が加速しており、社会的にも人口動態の変化、自然環境の変化など幅広い影響をビジネスが受けているからです。
企業のシステムは、このような変化の早い環境で、各業務のビジネスを回すことに重点を置いています。その場合、各業務システムが別々に構築され、それぞれでデータを管理しており、いわゆるデータのサイロ化が生じるケースが多くなっています。また、ビジネスを回すことを優先し、目的以外のデータは管理対象外です。例えば、販売システムでの顧客の趣味嗜好は、任意のデータで未入力が許されます。
このように、企業システムのデータは、分析で必要になる「企業活動における様々な事象の全社データ」ではなく、ビジネスを回すことを優先し最適化されたデータになります。そのため、データが企業内に散在しており、そのままでは分析ができない・しにくい課題が発生しています。この課題に対し、整合性を持たせてデータを収集し、データクレンジングをして分析できるようにする必要があり、これらの前処理に多くの労力がかかるため、データの分析・利用に費用がかかる課題が生まれています。
#データマネジメントの適用
企業システムのデータを、分析できるように・しやすいようにし、分析・利用のコストを下げるためには、分析目的でも企業システムのデータを管理していくことが必要です。具体的には、散在するデータの所在・内容・管理者を全社的に管理し、サイロ化したデータを統合する仕組みを作り、分析用に不足しているデータの登録などを行います。
企業システムのデータを全社的に管理していくアプローチは、データマネジメントとしてその知識体系がDMBOK(Data Management Body Of Knowledge)にまとめられています[*5]。DMBOKはデータガバナンスを中心に、データマネジメントに必要な10の知識領域で構成され、考え方・方法論・組織体制・用語・ベストプラクティスの紹介などが記載されています。
DMBOKは網羅的な知識体系のため、実際のデータ活用の場でデータマネジメントを具体的に実践するガイドとして、JDMC(日本データマネジメントコンソーシアム)から「データマネジメント概説書(JDMC版)」とその関連書籍としてケーススタディが2冊出版されています[*6]。
データマネジメントの領域は広く、前述の情報通信白書のデータ分析の課題①、③、④の組織的/人的な課題についても必要な考え方が示されています。
実際の適用にあたっては、適用するプロジェクトの目的・要件・条件などを踏まえ、必要なノウハウを取捨選択することが大切です。DMBOKも概説書も全社を対象にした網羅的な知識でありガイドであるためです。例えば、分析の適用業務に絞ってデータを共有・統一化し、関係する組織も最小限となるようにします。
変化の早いビジネス環境で、目下のビジネスを回すためではなく、組織的なデータ活用のためのデータマネジメントを各業務システムと協業していくことは簡単ではありません。その意義や効果を伝え、実際のプロセスも説明し、理解を得ていく必要があります。そして、まずは小さく始めることで難易度を下げ、ノウハウの蓄積と成功体験を共有しやすくし、継続できるデータマネジメント活動に育て、分析における課題を解決していきます。
#まとめ
昨今のデータサイエンス、AIなどのテクノロジーの成長により、データ分析の期待がますます高まっています。一方で企業におけるデータ分析は、その大半が十分な成果を得ることが難しい状況が続いています。その理由は、企業システムのデータは分析目的で生成されていないためです。そんな企業のデータを活用するためのセオリーが、データマネジメントの知識やガイドとしてまとめられています。新しいテクノロジーの威力を発揮するためにも、中長期的なデータマネジメントも合わせて計画することが必要です。
#References