対象読者
「AIモデルの精度○○%です」と報告してきたけれど、その数字の“確かさ”までは考えたことがない方へ。本文中の図や表は、実際のシミュレーション結果(可視化画像)をもとにしています。
「精度90%でした」——その数字、どれくらい確か?
AIを活用した検査や品質管理の現場では、「テストで合格率90%でした」といった報告がよくあります。でもその数字、どれくらい確かなのでしょうか?
たとえば10個の製品を評価して9個正しく判定できた場合。同じAIでも、もし次に別の10個を評価したら、9個かもしれないし8個かもしれません。つまりその「90%」という数値には、不確かさ(ばらつき) が隠れています。
この“不確かさ”を数字として表す方法が、 区間推定(confidence interval) です。
点推定と区間推定のちがい
<前回の記事>
-
点推定:観測データから得られた単一の数値(例:90%)
-
区間推定:その値の「信頼できる範囲」を示す(例:90% ± 6% くらい)
たとえば「合格率90%、95%信頼区間[0.72, 0.98]」と書かれていたら、
「実際の真の合格率は72〜98%くらいの間にありそうだ」と解釈できます。
たったこの一行を添えるだけで、数字の“信頼度”が一気に伝わります。
2つの考え方:WaldとWilson
信頼区間の計算方法にはいくつか種類がありますが、この記事で扱うのは代表的な2つの考え方です。どちらも「同じデータから、どのくらい確かかを推定する」ための方法ですが、考え方の出発点が少し違います。
■ Wald(ウォルド)=正規近似の方法
「平均から±(誤差)」という、いわば教科書的でシンプルな作り方です。
割合(たとえば合格率)が“だいたい正規分布に従う”と仮定し、
のように計算します。多くの統計ツールや古い文献では、この方法が**“標準”** として長く使われてきました。ただし、データが少ない場合や、結果が端(0%や100%)に偏っている場合は、この“だいたい正規分布”という前提が崩れやすく、区間が現実離れした値になることがあります。
■ Wilson(ウィルソン)=スコア法の方法
Wilsonは、同じ目的をより丁寧に考え直した改良版です。
どちらも正規分布による近似を使いますが、Waldが推定値に基づく分散(推定分散)で区間を作るのに対し、Wilsonは母比率を含む形の分散(理論分散)を使い、観測結果と矛盾しない範囲を数式として解きます。この違いにより、Wilsonはデータが少ない場合や0%/100%に近い値でも、破綻しにくく、自然な区間を導けるのが特徴です。
正規近似(Wald)とWilsonの違い(図1)
図1は、いくつかのケースで95%信頼区間を描いたものです。
上が**従来**の正規近似(Wald法)、下がより精密なWilson法(スコア区間)。
主な違いはこうです:
-
データが少ないとき(nが小さい)、Waldは極端な値(0や100%付近)で不安定になりやすい。
-
Wilsonは、少ないデータでも自然な幅と位置を示してくれる。
-
データが多いとき(nが数百以上)には、両者はほぼ一致。
つまり、Wilsonは小規模テストや初期導入時のモデル評価で特に力を発揮します。
0件・全件正解のときどう扱う?(図2)
図2は極端なケースです。
10個すべて正しく判定した(100%)か、1つも正解しなかった(0%)ような場合。AIモデルの初期検証や製品ロットが少ないときに、こうしたケースは意外と起きます。
-
Wald法では、区間が0%〜100%の範囲外にはみ出したり、幅が極端に狭くなったりします。
-
Wilson法は、「まだサンプルが少ないから、真の性能はこのくらいの幅がありそう」と適切に控えめな幅を示します。
つまり、Wilsonなら「100%の結果が出ても、“完璧”とは限らない」という現実的なメッセージを伝えられるのです。
実際のケースで考える
Aのように10個中9個合格という結果が出ても、「真の合格率は56〜99%くらいの範囲かもしれない」と見ておく方が誠実です。Wilson区間はこの“控えめさ”を自然に反映してくれます。
サンプル数が増えると幅はどう変わる?(図3)
図3では、推定値が約0.05 / 0.50 / 0.95の3パターンについて、サンプル数nを増やしたときの区間幅の変化を描いています(横軸は対数スケール)。
-
サンプル数が増えるほど幅は縮む(当然ですが、可視化すると納得感が違います)。
-
同じサンプル数でも、割合が端に寄る(0や1に近い)ほど幅が広くなる。
-
Wilsonは少ないデータでも安定しており、Waldは端で過小評価しやすい。
つまり、「幅が広い=データが少ない」か「幅が広い=偏りが強い」かを見分ける手がかりになります。
“95%信頼区間”は本当に95%なのか?(図4)
「95%信頼区間」と言っても、実際に95%の確率で真の値を含んでいるとは限りません。その“約束”がどれだけ守られているかを示すのが被覆率です。
図4a(Wald)と図4b(Wilson)は、真の合格率(p)とサンプル数(n)を変えたときの被覆率をシミュレーションしたものです。理想はすべてのセルが0.95に近いこと。
結果は明確です:
-
Wald法(正規近似)は、小さいnや0/1付近で95%を下回る領域が目立ちます。
-
Wilson法は、どの条件でもより安定して約95%を維持。
図4cの差分(Wilson − Wald)を見ると、特にデータが少ない・割合が極端な領域でWilsonが上回ることがはっきりわかります。
現場でありがちな誤解
-
「95%信頼区間」=“95%の確率で真の値が入る”
→ 厳密には違います。これは「同じ方法で何度も試せば95%の割合で真値を含む」という設計上の性質です。 -
「平均が高い=安定して高精度」
→ サンプルが少なければ、たまたま高く出ることもあります。幅(不確かさ) を見ましょう。 -
「Wald法で十分」
→ データが少ない・端の割合が多い場合には誤差が大きくなります。Wilsonを選ぶのが安全です。
おすすめステップ
① 点で語らず、幅を添える。
例:「合格率90%(95%CI [0.72, 0.98])」
② 小規模評価・端の割合にはWilsonを使う。
n<100や合格率が0や1に近い場合は特に。
③ 幅を見て判断する。
幅が広ければ「まだ確信が持てない」。追加データを検討。
④ 「100%」の結果も鵜呑みにしない。
少ない件数での全件正解は“十分なサンプルがないだけ”の可能性も。
⑤ チームで共通認識に。
図4のようなヒートマップを一度共有するだけで、「95%の作り方で結果が変わる」ことが誰にでも伝わります。
まとめ:Wilsonを“標準装備”に
-
点の数値だけでは信頼性を判断できない。
-
Wald(正規近似) は手軽だが、少ないデータでは楽観的になりやすい。
-
Wilson(スコア) は、被覆率の約束を守りやすく、現場データでも破綻しにくい。
-
小規模な評価・初期段階のモデル検証では、Wilsonをデフォルトにするのが安全です。
「精度○○%でした」から「精度○○% ± △△%でした」へ。
たったそれだけで、レポートが数字に説得力を持ち、再現性を感じるものに変わります。
この記事で紹介した図・表
-
図1:典型ケースの95%信頼区間(Wald vs Wilson)
-
図2:極端ケース(0件・全件)の95%信頼区間
-
表1:ケース別比較(推定値・区間・幅)
-
図3:区間幅とサンプル数の関係
-
図4a–c:厳密被覆率ヒートマップ(Wald・Wilson・差分)
さいごに
AIモデルの精度推定は、開発という旅の現在地を知り目的地までの距離を把握するための重要な情報です。
数字を一歩深く伝えるために、Wilson信頼区間という“控えめだけど誠実な方法”をぜひ取り入れてみてください。









