テストデータ精度100%の欺瞞：AIの「過剰確信（Over-confidence）」の病理をS1-S9パイプラインで直列解剖する

Posted at 2026-06-03

はじめに

世の中のAIベンダーやDX推進を謳う現場では、「テストデータでAccuracy 100%が出ました」「軽量化（INT8量子化）しても精度劣化はありません」というバズワードが無邪気に踊っています。

しかし、その「100%」は本当に堅牢な知能の証明でしょうか？
私たちがAI推論の確率プロセスを9つの純粋関数（Pure Function）へ直列解剖する**「S1-S9 決定論的LM推論パイプライン」**を用いてブラックボックスの脳内を計測したところ、衝撃のファクトが暴かれました。

その100%は知能の強固さではなく、**「単なる脳内麻薬（Softmax飽和）による見せかけの100%」**だったのです。

本記事では、軽量LLMのデプロイ環境（ONNX / dynamic INT8）において、過剰確信（Over-confidence）の病理がいかに境界クエリの過渡崩壊を引き起こすか、その数理的・定量的な検証結果を共有します。

通常のLLM/PLM（DistilBERTなど）をハードラベル（0か1か）のCross Entropy損失関数だけで直接訓練すると、モデルは訓練データ（Training distribution）の境界線を無理やり引き伸ばしてフィッティングさせようとします。

結果として、訓練データに対する出力確信度（Confidence）の分布を計測すると、全体の 97.1%が $\ge 0.999$ に異常に張り付いた状態 に陥ります。これが「過剰確信（Saturated Confidence）」の病理です。

一見、これは「自信満々で極めて賢いモデル」に見えます。しかし数理的には、Softmaxの手前（Logit空間）で極端な偏りを作っているだけの、非常に不安定な「崖っぷちのバランス」に過ぎません。

この過剰確信モデルに対し、エッジデバイス運用のために onnxruntime.quantize_dynamic による動的INT8量子化（4倍圧縮）を施した瞬間、このバランスは一爆で崩壊します。

量子化によって、重みと活性化関数には物理的な丸め誤差（量子化ノイズ）が走ります。私たちの検証環境（RTX 5060 Ti）における実測データでは、PyTorch（FP32）版とONNX（INT8）版の間で、最大で $3.53$ もの Logit 変動（$\Delta$） が記録されました。

訓練データ内の確信度が $0.999$ 以上に飽和している領域では、Softmaxがノイズを吸収するため、argmax（最終判定結果）はひっくり返りません。これが、ベンチマーク上だけで見える「量子化しても精度維持」の嘘の正体です。

しかし、訓練データ（分布内）には直接存在しない、判定の極めて曖昧な「境界ケース（低Confidenceを引くように設計された51本のプロンプト）」を流し込んだ瞬間、隠されていた脆さが一気に露呈します。

モデルが本来迷うべき境界域において、教師（FP32）側の平均確信度が $0.926$ まで低下した瞬間、INT8量子化のノイズ（$\Delta 3.53$）が飽和の壁を突き破り、判定結果（verdict）を崖の上から突き落とすように反転させます。

私たちが実測した、確信度（Confidence bucket）別のフリップ（誤判定反転）率は以下の通りです。

モデルの不確実性が顕現する $\text{conf} < 0.9$ の領域に入った瞬間、実質3分の1以上の確率でシステム全体の判定がひっくり返る という、ミッションクリティカルな本番環境（医療・法務・インフラ制御）では致命傷となる「大災害」が発生していたのです。

多くの開発者は、AIをインプットとアウトプットしか見えないブラックボックスとして扱います。そのため、精度が出れば「ハマった（奇跡）」、誤判定が出れば「ハルシネーション（バグ）」というオカルト的な片付け方しかできません。

私たちが提唱する「S1-S9パイプライン」は、推論プロセスを完全に可視化・直列化することで、「測れない」を「工学的に制御可能」に変えます。

この過剰確信と量子化の脆さを「 honest（誠実）」に把握した上で、私たちは本番運用システムにおける防衛コードを以下のように設計変数として固定します。

# 旧設定：一見良さそうな低い閾値
# S5Config(confidence_threshold=0.40) 

# 新設定：実測データ（Test B）から導出した絶対防衛閾値
S5Config(confidence_threshold=0.90)