はじめに
お疲れ様です。
機械学習エンジニアのSugiuraです。
最近、友人から「需要予測モデルが現場から信頼されない」という相談を受けました。私は需要予測を直接担当した経験はないのですが、精度と信頼性の関係について考える良いきっかけとなったため、記事にまとめました。
問題背景
ある商品を在庫として持ち、注文が入れば出荷する仕組みがあります。
このとき、
- 在庫が不足するとお客さんに商品を届けられない
- 在庫が過剰だと余計なコストになる
といった問題が発生します。
従来は人の経験や勘で必要数量を予測していましたが、それをモデルで効率化しようとしたのが需要予測モデルの背景です。
モデルの精度は一定水準に達していたものの、現場から信頼を得られず、結局人が再計算して発注する二度手間になっていました。

なぜ発生したのか?
「精度は高いのに、なぜ信頼されないのか?」を考えると、精度指標の曖昧さが原因と考えられます。
RMSEやMAPEといった一般的な指標は、すべての誤差を同じ重みで評価します。しかし現場では誤差の方向に意味があります。

今回のケースでは「過小評価(足りない在庫)」が最も恐れられていました。なぜなら、顧客に商品を届けられないことは絶対に避けたいからです。
一方、RMSEやMAPEでは過小評価と過大評価が打ち消し合い、全体のスコアは良好に見えてしまいます。
その結果、数値上は精度が高いのに「現場が本当に恐れる失敗」を含んでしまい、信頼されないモデルとなったのだと考えられます。
評価指標の難しさ
今回のケースでは、過小評価と過大評価を区別した評価指標設計が必要だったのかもしれません。
もちろんRMSEやMAPEなどの指標をメインに使いつつ、他の補助的な指標として取り入れるという意味です。
とはいえ、過小評価を完全にゼロにすると、今度は過大評価が増えて在庫を抱え込み、結果として損失が大きくなるリスクもあります。
一方で、人による予測では「過小評価をほとんど出さない」という暗黙の判断が働いていたと考えられます。
そのため、人の予測によって発生していた損失と同等、もしくはそれ以下の水準に過大評価を抑えられれば、モデルとしては十分に現場で受け入れられる水準だったのではないかと感じました。
私自身も実務で評価指標の設計を誤った経験があります。課題設定と評価指標のズレは、実装よりも失敗の原因になりやすいと感じます。
例えば時系列予測では、
- RMSEは低いがトレンドや季節性を無視したモデル
- RMSEはやや高いがトレンドや周期性をきちんと捉えたモデル
のどちらが望ましいかは利用目的によって変わります。
「最新データの当たり外れが重要」なのか、「全体的な需要変動の把握が重要」なのか。
利用者が何を重視するかを明確にした上で評価指標を設計する必要があると改めて感じました。

おわりに
今回は「精度はあるが信頼性が欠けた」ケースを考察しました。
私は話を聞いただけですが、実際には社内文化や運用体制など、モデル以外の要因も関係していた可能性はあります。
ただ、AIプロダクトを作る立場として、数値としての精度だけでなく利用者が感じる価値を届けることが重要であり、そこにズレが生じないよう注意すべきだと強く思いました。
読んでいただき、ありがとうございました。