はじめに
データ活用を社内で推進し始めてはや1年半が経ちましたが、その過程で色々な問題がそこら中に潜んでいることに気が付きました。データが使える状態になっていない、つまりデータマネジメントが全く機能していない状態で何年もデータが無秩序に生成(あるいは廃棄)された残骸を目の当たりにしたのです。
現実の惨状にどう対処していくか、何を見て何を学んでどう行動していくべきなのか、つまりどうデータマネジメントに取り組んで行くべきなのかについて、私の考えを紹介していきたいと思います。(末尾に参考にした文献も載せてます)
この記事が惨憺たるデータを前に苦悩しているデータサイエンティストを始めとする日本のデータ活用人材の一助となれば幸いです。
データマネジメントとは
データマネジメントはJDMCにより以下のように定義されています
データマネジメントとは、ビジネスの成長と成果のために「データをビジネスに活かすことができる状態を継続的に維持、さらに進化させていくための組織的な営み」により、データを利活用することをいいます。
つまり、データマネジメントの目的はビジネス価値を生み出すためのデータ利活用を円滑にできる状態にすることになります。ではどうやってやるか、というと以下に示すような様々な視点でデータを管理する仕組みを作っていく必要があります。(DAMA日本支部のページより抜粋)
また、どのようなデータを対象にマネジメントするか、どのようなデータ品質を担保する必要があるかなど、具体的な対象や目標は生み出したいビジネス価値によって大きく異なってきます。
例えばデータ品質で言えば、意思決定に役に立たないデータを後生大事にきれいに整えて保存することは無駄な管理コストを生みます。ですので、適切な管理対象を決めて、適切なデータ品質(一意性、一貫性、完全性、冗長性、適時性、有効性)で管理することが大切です。
「今やるしかない」と思った出来事 〜20万件のゴミデータ〜
データサイエンティストとして社内のデータ解析や人材育成を始めて1年が経った2021年の半ば、私は2021年で最も衝撃的だった出来事が起こりました。
以下回想
「〇〇(筆者名)さん、ちょっとこのデータをPowerQueryで前処理したいんですが、やり方のアドバイスをもらってもいいですか?」
「どれどれ、見せてください……。こ、これは!」
全身に衝撃が走り、私は冷や汗をかきながら数千行あるデータをスクロールして見ていきました。そこにあったのはシステムから出力されたものと思しき衝撃的なゴミデータだったのです(下図:実物ではないですが、どう悪かったのかを再現したもの)。
「一つの列に複数の全く意味の異なる情報が入り乱れている……! それだけじゃない、単位も書き方もバラバラで、しかも単位すらないものもある。挙げ句、一つの行に複数の仕様情報がカンマ区切りで入っていたり、”〜”を使って範囲で書いてあるだと……」
「〇〇さん、これ結構やばい感じですか……?」不安げな声で聞いてくる相談者に私は言います。
「このシステムの責任者を教えて下さい、今すぐ!」
その後、システム導入と設計の責任者を問い詰めて、データ品質改善の施策実施を取り付けましたが、それが完了するまでにかかる時間を考えると20万件以上のデータがゴミデータとして積み上がる計算でした。また、もう一つ驚くべきことがわかりました。それはデータマネジメントに関するルールがないために、そのようなシステム設計がまかり通ってしまう状況ができてしまっているということでした。この状態を放置すればシステムが導入されるたびに致命的な負の遺産が積み上がってしまうことは明確でした。
そんなことがあり、データマネジメントを「今やるしかない」と私は確信するに至ります。
幸い、私はDXの推進部署にいて、システム導入を行うIT部署と協力しやすい立場にいましたので、関係者に働きかけてITと共同でデータマネジメントを社内でやっていくことになりました。
データマネジメントを始める上での壁
先に示したように、データマネジメントの目的はデータ利活用できる状態を作ることでビジネス価値を生み出すことです。
一方で、製造業の企業の中(特に本社)においては、ITやデータ分析の文化がほとんどなく、データ×ビジネス価値を意識している人はあまり多くありません。もしくは意識していたとしても、普段の業務に忙殺されていたり、過去から秘伝のタレの如く継承されてきているエクセルシートのフォーマットを変える気力がないまま日々の仕事をこなしている、という状況が往々にしてあります。
「データが悪いことはわかった、でも労力をかけて改善するメリットが実感できない」
データマネジメントの取り組みの構想を話して社内を回っていると、そういうビジネス現場の反発は当然出てきました。それも当然といえば当然で、今までのやり方から変える負担・コストを忙しい現業をやりながら支払いたくない、というのが人情です。長期的には自動化やデータ活用の高度化によってメリットが出るものは確実にあると思いますが、一方で短期的には変えることのメリットよりもハードルのほうが大きい、この壁をどう超えていくかが問題でした。
ではどうやって製造業である自社のデータマネジメントを進めていくのか、データマネジメントのプロジェクトチームで文献を読み漁り、議論しながら方向性を決めて行きました。
データマネジメントのすゝめ
そういった状況下の中、データマネジメントのプロジェクトチームでは参考文献に挙げた書籍や記事を読み、いくつかの方向性を整理しました。
- データマネジメント知識体系ガイド第2版(以下、DMBOK)を基に、データマネジメントを体系立てて進める
- 外部の有識者を巻き込んで進める(社内だけではやりきれない)
- 取り組みをいくつかのフェイズに分けて、まずはビジネス価値の高い、かつデータ活用の必要性を感じている部署を対象に進める などなど
ここでのポイントはビジネス価値基準でデータマネジメントを考えるということです。この考え方はDMBOKにも示されており、ただ過剰品質のきれいなデータを作るのではなく、きちんとビジネス価値のあるターゲットに対して実施することが大切です。
また初期の取り組みはデータ活用の必要性を感じている現場を見つけて、そこを支援する形にしました。ちゃんと価値がわかっている現場を改善し、その効果を社内発信していくことで、徐々に社内全体にデータマネジメントを広げていくアプローチです。これは、そもそもデータ活用をしよう、というマインドを持っていない現場ではビジネス価値とデータがリンクしていない(すくなくとも人の意識として)ケースが多いため、現場の協力が得られにくいためです。
効果の大きいところから進めていく、というのは奇しくもビジネス価値の高いデータからやっていくデータマネジメントと同じ思想です。
また、ここでは詳細は紹介できませんが、この取り組みを進めるにあたって、様々な社外の有識者の方々にヒアリングをして、協力してもらっています。製造業の内部の人材ではITの専門家もいなければデータマネジメントを体系的に実施してきた経験のある人もいません。製造業でデータマネジメントを実施する場合には、自社にない知識・スキルを確保するために適切なパートナーを探してくることが必須だと感じました。
おわりに
データ基盤についての書籍には、その大前提となるデータマネジメントの話はあまり書いていないか、あるいはある程度整った状態を仮定して書かれています。そうしないとこれまで書いてきたような理由によってそもそもデータ基盤の話までたどり着けないので仕方ないですが、逆に言えば、日本の昔からある企業の殆どはそのようにデータ基盤を語るためのスタートラインにすら立てていないというのが現状なのだと私は思います。
私がデータマネジメントを「今やるしかない!」と思った理由の一つは先に述べたように積み上がる未来への負債を一刻も早く止めたいという思いからでしたが、もう一つの理由がありました。それは社内のIT部門にその問題の重大さを理解してどうにかしたいと考えている、そこそこのポジションのエンジニアがいたことです。現在私はその方とプロジェクトチームを組んでデータマネジメントに取り組んでいる最中ですが、もし仮に私とそのIT部門の方のどちらか一方でも現在のお互いのポジションに居なかったら、おそらく先数年間は私の会社でデータマネジメントを組織的にやる、という議論は進まなかったと思います。
そういうことを考えると、データマネジメントを真剣にできるタイミングというのは非常に希少なものなのだと思います。なので、この記事を読んでくださっている皆さんもデータ活用において様々な悩みを抱えてデータマネジメントの重要性を感じていると思いますが、「今やるしかない!」と思ったらぜひそのタイミングを逃さず全力でアクションしてみてください。
データマネジメントが行き届いて、日本中で良いデータ活用ができている未来が来ることを願っています。