【衝撃】Claude・GPT・Geminiが医療現場で72%失敗！CHI-Benchが暴いた「AIエージェントは病院で使えない」残酷な真実

Posted at 2026-05-21

「AIで医療が変わる」と騒いでいたあなたへ。

昨日（2026年5月20日）発表されたベンチマークが、AI業界に衝撃を与えました。

最新のClaude、GPT-5.5、Geminiを含む30のAIエージェントが、米国の医療ワークフローで72%失敗したのです。

結論から言うと

最高性能のClaude Opus 4.6でも成功率はたった28%
同じケースを3回実行すると、成功率は20%以下に暴落
25件連続処理させると、96%以上が失敗
AI同士で業務を回したら、成功率ゼロ

これが「医療AIエージェント」の現実です。

CHI-Benchとは何か

CHI-Bench（Clinical Healthcare Intelligence Benchmark）は、AI企業actAVA.aiが開発した**世界初の「長期医療ベンチマーク」**です。

従来のベンチマークが「1問1答」形式だったのに対し、CHI-Benchは実際の病院業務を再現しています。

CHI-Benchの規模

75種類の実際の医療ワークフロー
各タスクは60〜80ステップ、4〜6の臨床段階を横断
21の医療アプリをMCPで連携
200以上のツール
1,279ドキュメントの運用マニュアル

つまり、「この患者の事前承認を取って」というシンプルな依頼でも、保険確認→診断コード取得→必要書類準備→提出→フォローアップ...という現実の業務フロー全体をAIに任せるわけです。

各社AIエージェントの成績表

AIエージェント	Pass@1
Claude Code (Opus 4.6)	28%
OpenAI Codex (GPT-5.5)	21%
その他28エージェント	20%未満

「28%で最高？」と思うかもしれません。

でも考えてください。10人の患者のうち7人の処理に失敗するAIを、あなたの病院で使いたいですか？

ドメイン別の悲惨な結果

利用管理（Utilization Review）: 41%
ケアマネジメント: 32%
事前承認（Prior Authorization）: 29%

事前承認で29%ということは、保険の事前承認申請の7割が通らないということです。

現実の医療現場では、これは患者の治療遅延を意味します。

本当にヤバいのは「耐久テスト」

単発テストで28%でも問題ですが、耐久テストの結果はさらに衝撃的でした。

信頼性テスト（同じケースを3回実行）

全AIエージェント: 20%以下

同じ患者、同じ状況でも、3回に1回しか同じ結果を出せない。

これは再現性がないということです。医療で最も重要な「一貫性」がないのです。

エンデュランステスト（25件連続処理）

最高性能のAI: 4%未満

25件の連続処理で成功率4%未満。つまり24〜25件は失敗です。

現実の病院では、1人の事務員が1日に数十件の事前承認を処理します。AIに置き換えたら、ほぼ全部失敗するということです。

End-to-Endテスト（AI同士の連携）

成功率: 0%

あるAIが事前承認を申請し、別のAIが審査するシナリオ。

成功したケースはゼロでした。

なぜAIエージェントは医療で失敗するのか

1. 長期コンテキストの維持が苦手

60〜80ステップの処理中に、初期の重要情報を「忘れる」。患者IDや診断コードを途中で取り違えるケースが多発。

2. ドメイン知識の深さ不足

「この保険プランではこの薬はTier 3」「この州ではこの手続きが必要」といった暗黙のルールをAIは知らない。

1,279ドキュメントを与えても、適切なドキュメントを適切なタイミングで参照できない。

3. エラーリカバリーができない

人間なら「あれ、おかしいな」と気づいて修正できる。AIは間違ったまま突き進み、最後に破綻する。

4. マルチシステム連携の複雑さ

21の医療アプリを連携させる必要があるが、一つのシステムでエラーが起きると全体が崩壊。

医療AI投資は無駄だったのか？

2026年だけで医療AI分野には**推定$47B（約7兆円）**が投資されています。

CHI-Benchの結果は、この投資の大部分が時期尚早だった可能性を示唆しています。

医療機関への警告

「AIで人件費削減」を期待して導入を進めている病院は、まずCHI-Benchの結果を確認してください。

現時点のAIエージェントは：

単発タスクでも72%失敗
連続処理では96%以上失敗
AI同士の連携は100%失敗

これを「補助ツール」として使うならまだしも、「人間の代替」として導入するのは危険です。

今後の改善に必要なこと

CHI-Benchのリリースは、悲観的なニュースだけではありません。

業界初の実用的なベンチマークができたことで、AIの改善方向が明確になりました。

改善が必要な領域

長期コンテキスト管理
- 60〜80ステップを通じて情報を正確に保持する技術
ドメイン特化学習
- 医療保険、州法、病院固有ルールの深い理解
エラー検知と自己修正
- 「おかしい」と気づいて引き返す能力
マルチエージェント協調
- 現在のAI同士連携は0%成功。根本的な設計変更が必要

私たちはどう対応すべきか

医療機関

AIは「補助」として使う。「代替」として期待しない
重要な判断は必ず人間がダブルチェック
パイロット導入では必ず成功率を計測

AI開発者

CHI-Benchを自社AIでテストし、弱点を特定
長期タスクでの信頼性向上に注力
医療ドメイン専門家との協業を強化

投資家

「医療AI」銘柄の過度な期待を見直す
実際のベンチマーク結果を確認してから投資判断
短期的なROIより長期的な技術成熟を重視

まとめ

CHI-Benchが明らかにしたのは、現在のAIエージェントは複雑な業務を任せられるレベルにないという現実です。

最高でも28%の成功率
連続処理では96%以上が失敗
AI同士の協調は完全に不可能

「AIで仕事がなくなる」と恐れていた医療事務の方々、まだ安心してください。少なくとも2026年時点では、あなたの仕事はAIに奪われません。

ただし、これは今後も同じとは限りません。CHI-Benchという明確な目標ができたことで、AI各社は急速に改善を進めるでしょう。

1年後、同じベンチマークでどんな結果が出るか。それが本当の勝負です。

参考リンク

Claude, GPT, Gemini Agents Fail 72% of U.S. Healthcare Workflows, New Benchmark Finds

State of AI: May 2026 - Air Street Press

この記事が参考になったら、いいねとストックをお願いします！

質問: あなたの職場ではAIエージェントを導入していますか？成功率はどのくらいですか？コメントで教えてください！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up