ヤバいデータ分析 - 1. 人工知能と機械学習と統計学と（っていうか「機械学習プロジェクトキャンバス」がすごい）

Posted at 2025-03-01

で書いたことを1つずつ掘り下げていこうと思います。

今、「AI」っていうと生成AIというかChatGPTみたいなものを指すじゃないですか。

AIが花盛りなのですが、みんな定義をきっちりしないで好きなことを言っている。定義は難しいのですけれど、少なくとも社内やチームでいういときは認識を一致させないといけないじゃないですか。
雪国といって新潟なのか、青森なのか、北海道なのか、その議論をしているときに川端康成を入れてきてガハハとか混ぜっ返すやついるじゃないですか、AIとかDXの認識を一致させないままAI活用DX活用とか言っているから。合わせましょうの話。

ここにも書いているので、かぶっているところはすみません。少し変えて話してみようと思います。

と進化した、みたいな図がネット上で見て、違いますよ。と。
アカデミックの歴史としても違うし、ビジネス利用としてならもっと違う。

生成AI活用が目的じゃなくて、ビジネス上の課題解決が重要でその手段が生成AIかもしれないですが生成AIじゃない予測AIかもしれないですし、業務フローのルールを見直した方が良いかもしれない。

Qiitaでも「データサイエンティストに必要なOO」「データサイエンティストが学べきOO」みたいな記事では分析手法などの話ばかりで、じゃぁ何を解くのか、についての話が少ないというかほとんどない。

Qiitaでもちゃんとあるんですけれどね。

事業会社なのにこんなの作ってしかも公開ってすごい。三菱ケミカル様。

データ分析は

でも書きましたが、ビジネスの意思決定に役立たせるものではないといけないですし、AI活用なんてなくて、AIは手段です。

であれば、何を解けばいいのか、が重要になってきてその整理に有用なフレームワークが機械学習プロジェクトキャンバスですね。
私はあるベンダーのソリューションを扱っていてそのフレームワークが素晴らしかったのですが、それはそのソリューションの契約者のみ。このフレームワークは無償公開なので、みんなで使い倒した方がいいです。

解説記事もありますが、私なりの解釈も書いてみたいと思います。

機械学習プロジェクトキャンバス

pp.5-8 機械学習に向いているプロジェクト・向いていないプロジェクト

生成AIだとまた異なってきますね。ここでは予測・識別AIと呼ばれる従来の「AI」に絞ります。
一言で言うと「いい感じにAIでして」ということはあり得ないということ。担当者の知見も必要ですし、100%もあり得ない。

仮にAIにお任せで担当者が不要な仕組みが作れるのであれば、その担当者は不要です。

ただ、最初のうちはどういうのが向いていて、どういうのが向いていないのかがわかりにくいので、データサイエンティストの支援を受けながらもこのキャンバスを自分で埋めるのが経験になります。
そして、スモールスタート

pp.9-10

これ作られた方本当に苦労なされて分かってるなーというのがこのページ。
何を目指すのかの「目的」が最重要であり、「利用者」目線でなければならない。

p.12

目的・目標

このキャンバスで数少ない直して欲しい点がここ。「目的」と「目標」は別なのですがここの記述が曖昧。

c.f. 「15. 目的・目標・戦略・問題・課題」

改訂の機会があればぜひここは直して欲しいな。

それ以外の記述は素晴らしいと思います。この通り。「AIでー」とかやっていると関係者の間で目指していることがバラバラなことがほとんどなので。そこを合わせるのが最重要です。

展開性・副次的な効果

そう、あくまでもビジネスとして、費用対効果を意識してやっているわけです。
複数のPJとなった場合の優先順位付けにおいて、でも効果はそんなに明示的に定量化できない。ならば他の基準として、そのPJ単体で終わってしまうものか、それが成功すれば展開できるものかが重要ですね。
素晴らしい。

p.13

成功の指標

いわゆるKPI設定です。何度でも繰り返しますが、ビジネスの意思決定に役立たせるために機械学習を行うので、「いい感じだね」みたいな評価はあり得ないわけです。達成したかしないか、したならばどの程度か。
最初は本当にこれ難しいんですけれど、

精度により利益やコスト換算できればそれを
従来手法より超えることを目指すのであれば従来手法をベースに指標化
全くない、初めて、ということであれば難しいですが、データサイエンティストと相談しながら
- ざっくりいうと
  - 超絶ベテランのノウハウを定量化したい
    - 改善はよくて数％、むしろ自動化・工数削減を目指す
  - 今までは完全に経験と勘
    - 10−30%改善は可能性あり
  - Excelで重回帰分析など素朴な手法では実績あり
    - 5-10%改善は可能性あり
  - すでにデータサイエンティストによる機械学習の取り組みあり
    - よほど追加の良質なデータがあることでもない限り「ディープラーニングでなんとかなる」などの幻想は捨てる
    - 数％改善を目指す

少なくともKPIが重要だという意識は必要です。

予測の利⽤法

その結果を
そのまま別システムで使うのか
担当者が目で見れば良いのか
月次集計なのか、リアルタイムが必要なのか等

リアルタイムが必要なPJで精度が良くても数時間計算が必要などは論外ですね。
後続の運用のところにも関わってきます。

p.14

データ

これが日本にはないのではないかというくらいない。「ビッグデータ」ってバズワードはなんだったのでしょうか。
いやあるにはあるんですが使える状態じゃないです。土だらけのキャベツをサラダにしますか？状態。

この項目できれば補足説明を追加したいのですが、ユーザーの人が「データはある」というのを信用してはいけません。すぐ使える状態と塩漬けで使えない状態には天と地の差があります。

DBなどに入っていてすぐ使える
DBなどに入っているが、別部署に申請が必要、担当者の理解が得にくい
DBなどに入っているが部署ごとにID体系や属性のカテゴリが異なり紐付けができない
自由な記述のExcelで個々に所持
紙！

などなど色々あります。全部「ある」ですけれど。このレベル感をきちんと確認する必要があります。

オープン戦略

三菱ケミカルさんここまで考えてるんだ、すごい。
直接的に言ってしまうと、ベンダーに依頼するよりも、KaggleやSignateさんのようなところに競技用の問題として出してしまえば、特にKaggleならデータサイエンティスト界の大谷翔平みたいな人がとんでもないコスト（ベンダーに依頼すると数千万になりそうなものも100万円くらいの賞金）で遥かに高精度なものを返してくれるかも。

データそのままが無理ならば、少し加工（これにもノウハウ必要ですが）して公開して解いてもらい、解法ノウハウを得ることも考えられます。

p.15

検討時の計算手法・インフラ

これはこの通り。
単にひたすら精度を求めても仕方がないので、繰り返しますがあくまでもビジネスの意思決定支援なので。
目的や利用方法をきちんとさだめ、費用対効果に見合うインフラに収めるためにも重要な項目。

データ補強

「データ」の項目で書きましたが、日本にデータはない！
泥臭くは、他部署の状況を細かく確認するとか、
公開データが使えないか、
購入できるデータはないか、

今だと、生成AIで作ってしまうというのもありますね。

p.16

利⽤者

そう、使われてこその機械学習。
精度だけ目指せば良いのであれば比較的関係が薄いですが、結果の解釈性や、リアルタイム性などが重要な場合は、利用者の理解・納得が重要になってきます。「目的」設定と合わせ重要です。

過去の知⾒・アドバイザー

意外とやっているんです。実は。AIとか機械学習とか読んでなかったので埋もれていますが。
また機械学習の意味ではなく、データの意味も、意外と担当者が知らなかったりします。業務で使っているのでそのまま使っていただけとか。
場合によっては業務フローの知見者がいればそこの見直しをすれば改善してしまうことも（機械学習がが目的ではなくて手段なので、これで改善してしまえばよいわけです）。

p.17

最終システム形

基幹システムや業務システムと連携が必要なのか。リアルタイム性が必要とか。いや月次のMTGで使うだけなので、Excelで出てくればいいよなのか。

また、「目的」「利用者」と合わせ、数値だけなのかグラフが必要とか、解釈性であればまさか一般の方に「Permutation Importanceの値は？」なんて出力するわけにはいけないので見せ方をどうするか。

モデル更新・メンテナンス

一回モデルを作れば終わりではなく、状況が変わればデータも変わり精度も変わります（悲しいかなほっといて精度向上することはまずなく大抵悪化する）。

補足

このキャンバスには明示ないですが、あと重要なのは

ビジネスインパクト
- 「目的・目標」がこの趣旨かもですが定量感があまり強調されてないので
  - 例示だと金額感やコスト感がない。ビジネスで欲しいのはコスト減か利益増なので
- このPJのPoC、運用でのコスト感
- 成功した場合の利益は何か
  - コスト（工数か、費用か）削減なのか、
  - 利益増大なのか
スケジュール感
- 絶対の締め切りがあるのかなる早なのか
- ほっとくとずるずる行くので何もないならば区切りをつけたほうが良い
関係者の理解
- 決裁者、その業務の責任者、データ分析担当者、データ管理者、システム管理者、利用者、etc
- 関係者がこのPJで納得するのか同じゴールを目指しているのか

とかなんとか、タイトルとはかなりずれちゃいましたけれど、人工知能も機械学習も統計学も手段なので、
「AI活用」じゃなくてこういうのが日本中で議論されるようになるといいな

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up