背景
マナビDX QUEST※の経験者の方ならわかる「企業協働」
昨年企業協働のメンバーとして参加した際に(DX QUEST※2023)
企業様にデータを集めること、デジタルのデータにすることのメリットをわかってもらい
またデータを使う時、機械(コンピュータ)が融通が利かない点を理解してもらうように
「なぜデータを集めるのか?」について説明させてもらった資料から
あくまで「我流」の方法であり、常道では無いですがまとめてみました。
※マナビDX Quest:経済産業省が実施する、デジタル推進人材育成プログラムのこと。
(https://dxq.manabi-dx.ipa.go.jp/)
なぜデータ化?
なぜ費用やリソースを使ってデータを集めないといけないのか?(もちろん何でもかんでも集めたらいいというわけではなく、良質なデータを集めることが必要ですが)
私見ですが、以下の3つが大きいかなと思っています。
理由の明確化
ひとつは課題があることは感覚的に皆さん分かるのですが、
何がどう悪いのか?を感覚や言葉ではなく測定可能なデータで表現することで。
現状とあるべき姿をデータで表すことはでき、何をどのようにすればよいのかが明確になる。
効果の検証が可能になる
前述の理由の明確化に関連してだが測定可能なデータで課題を明確にしておくことで
効果として十分なものなのか?(あるべき姿にどの程度近づいたのか?)が分かる
理由の明確化、効果の検証が可能になる、双方に共通であるが、結構のこのあたりは
優れた担当者は経験や勘で、頭の中で感覚的にだが出来ていることが多いかと
ただ実際にデータや数値には出来ておらず、
それをすることで「誰にでも出来る、分かる」ようになるはずで、
わかっている人にとっては無駄に感じることではありますし、
地味でまどろっこしい感じではありますは重要と考えます。
隠れたファクターの発見
例えば 小説 マネーボールで示されるセイバーメトリクス
引用:Amazon マネー・ボール〔完全版〕 (ハヤカワ文庫 NF 387)
Wikipediaより
セイバーメトリクス (SABRmetrics, Sabermetrics) とは、
野球においてデータを 統計学的見地 から 客観的 に分析し、
選手の評価や戦略を考える分析手法である。
長打率や出塁率などあまり他球団が重視しないが球団の勝利に貢献する
ファクターを使って安価で球団を強化した(ただし他球団も同じファクターに注目しだすと
意味がなくなる)事例なのですが、今まで複数の部門が持っていて、
相互につながっていないデータをつなぐと新しい発見が出てくる、
よくあるのはいままでモヤッと関係ありそうかな
って思ってたものをデータをつなぐことで、モヤッとがスッキリ分かると言った感じかと。
また別の事例で「おむつとビール」の事例は有名で
こちらの方が分かりやすいかもしれません。
なぜデータを集めるのは難しいのか?
機械(コンピュータ)は融通は利かない
よくEXCELでデータは溜まっているから、これを使って分析や可視化とか出来るでしょう
っておっしゃられることがありますが、人間が読める形式のデータでも
機械は融通が利かず読めず、うまくいかないことがあります。
その詳細は以下のようなものがあります。
Mechine Readable(機械可読性‐機械が読める)なデータでないといけない
総務省統計局作成の 統計表における機械判読可能なデータ 作成に関する表記方法
にあるように、社内・組織内でデータを集まる、つなげる、使うためには
機械判読可能(コンピュータやアプリで扱える)なデータにしないといけないが
EXCELなどに入力されたデータでは守られていないことが多いかと思います。
例として 1セル1データとなっているか を示します
以下の例の 修正前 を見ていただくと分かると思いますが結構よく使うデータの入れ方だと
思います。
引用: https://www.stat.go.jp/info/guide/public/kyogikai/29/pdf/shiryou.pdf
構造化データであること
色々な特徴があるがデータを収集して連携して使う場合以下の定義可能な属性
(表形式で言えば行のレベルで同じになっている)
引用:https://www.irasutoya.com/2020/07/blog-post_15.html
構造化データは、すべてのデータ値で同じ属性を持ちます。
例えば、すべての予約レコードには、予約名、イベント名、イベント日、および
予約金額の属性を含めることができます。
リレーショナル属性
構造化データテーブルには、さまざまなデータセットをまとめて
リンクする共通の値があります。
例えば、[customer id] (顧客 ID) フィールドと [booking id] (予約 ID) フィールドを
使用して、顧客データを予約データに関連付けることができます。
そのため、構造化データをリレーショナルデータベースに便利に格納できます。
(こちらは次の「いわゆるデータベースの形に。。。」の内容にも関連します)
引用:https://zenn.dev/skal073/articles/b2c334779bf5cf
定量的データ (表形式で言えば列のレベルで同じタイプのデータであること)
構造化データは、数学的分析に適しています。例えば、属性の頻度を数えて測定したり、
数値データに対して数学演算を実行したりできます。
いわゆるデータベースの形にすることが必要(正規化が必要になる)
例えば営業のデータと製造のデータ、商品という項目が同じものであれば
それをキーとして営業と製造の情報を結びつけて見ることが出来、全社レベルで
の広い分析が可能になるが、そのためには製造と営業で同じ商品なのに呼び方が
違うといったブレを統一したり、
また商品情報は別のマスターにして、ブレや誤りを防ぐなどのデータ設計上の
工夫を行うことでより良くデータを集め、使うことが可能になってきます。
データベースの設計上の用語で「正規化」ということがその工夫になり
小規模なデータ連携でも参考となります。
データを使うことの怖さと心構え
データを無批判に使うことの怖さ
データというものは誰にでも分かる、判断できると便利である反面
分かりやすいために、無批判に信じてしまうことが懸念としてあります。
1+1=2
と、どういったもので2という値(データ)が算出できたか?
わかっていれば状況が変わっている場合(例えば1が2になっている)には
2という値が「現状の」答えでは無いことが分かる。
■+■=2
値(データ)を導く過程がブラックボックスになってい場合
もしくは利用者が無批判にデータを信用している場合
状況が変わった場合(例えば1が2になっている)に
2という値を「現状の」答えと誤って判断し、訂正することができない
データにはバイアス(偏り)があること
収集するデータにも、以下の参考サイトに詳しいですが
「測定基準」「選択結果」「実験対象」「実験者・分析者」などに
起因するバイアス(偏り)があり、注意しておかないと得られた結果は
現実を正しく表したものでは無いことが起こり得ます。
また可視化やグラフなど、 「見せ方」 によっては見る人に 誤解 を与える
ことになり、うまく伝えようとして工夫したつもりが逆効果になることになります。
引用:https://ja.wikipedia.org/wiki/%E8%AA%A4%E8%A7%A3%E3%82%92%E4%B8%8E%E3%81%88%E3%82%8B%E7%B5%B1%E8%A8%88%E3%82%B0%E3%83%A9%E3%83%95
ならどうすればいいのか?
→「怖がり」ながらも「信用」する
過去正しい結果を出している仕組みでも、次は状況が変わっているかもしれない
と「正しく」怖がり、できるだけ裏付けを取ることを考える。
また正しい結果を出した場合でも「なぜ」こうなったのか
要因を「深く」考えて見る必要がある。
例えば疑似相関になっていないか?など気を付けていかないと
落とし穴にハマることがありえます。
引用:https://www.pref.yamaguchi.lg.jp/soshiki/22/101008.html
さらに学ぶには
企業さんへお伝えしたのはここまでだが
あくまで今回まとめたのは初歩の初歩的なものであり、経営にデータを使う、活かすための資料としては経営者のためのデータ経営読本をおすすめします。
こちらはIPA((独)情報処理推進機構)のまとめたものですが、多少難しいですが参考になる資料だと思います。
また経営にデータを使うことのススメは簡潔にまとめられていて、
経営者のためのデータ経営読本を見る前に一読すると良いかと思います。
こちらのサイトで双方見ることが出来ます。
経営者のためのデータ経営読本から抜粋ですが以下のようなデータのライフサイクルとそれに対する説明を書かれていて参考になります。
引用:経営者のためのデータ経営読本
あと本当はしっかりデータについて種々の資料を学ぶべきではありますが
手っ取り早くどういったことができるのか知りたいという方には
データ利活用のユースケースが用意されています。
視点が違うデータを分析し売上向上- 行動×購買のデータによる商業施設活性化 -
抜粋:データ利活用ユースケース集
最後に
データやそれによる定量化は経営や日々の業務のパートナーとして使うべきで
それが勘や属人化した判断や業務から脱却するための方法かと思います。
例えば昔はドライブするのに地図で行き先を調べていたのに、
今ではカーナビが当たり前になっていると言うのに似ていると言えるかと。
ただ注意する点も多く、またこれはデータだけではなく、全てに言えるのですが
盲目的に信じてしまうことはリスクでしかありません。
まどろこしくても面倒てもしっかり考えることから始めるしかないのかと思います。
例えばカーナビの種類(スマホによるナビと本格的なカーナビなど)によって、
最短経路だけど、車で運転しにくい細い道が選ばれるもの、
別のものでは運転しやすさが考慮されていて距離は少し遠くても運転が楽で、
早く疲れず到着できたと言ったことを想像してもらえたらと