「AIで医療が変わる」と騒いでいたあなたへ。
昨日(2026年5月20日)発表されたベンチマークが、AI業界に衝撃を与えました。
最新のClaude、GPT-5.5、Geminiを含む30のAIエージェントが、米国の医療ワークフローで72%失敗したのです。
結論から言うと
- 最高性能のClaude Opus 4.6でも成功率はたった28%
- 同じケースを3回実行すると、成功率は20%以下に暴落
- 25件連続処理させると、96%以上が失敗
- AI同士で業務を回したら、成功率ゼロ
これが「医療AIエージェント」の現実です。
CHI-Benchとは何か
CHI-Bench(Clinical Healthcare Intelligence Benchmark)は、AI企業actAVA.aiが開発した**世界初の「長期医療ベンチマーク」**です。
従来のベンチマークが「1問1答」形式だったのに対し、CHI-Benchは実際の病院業務を再現しています。
CHI-Benchの規模
- 75種類の実際の医療ワークフロー
- 各タスクは60〜80ステップ、4〜6の臨床段階を横断
- 21の医療アプリをMCPで連携
- 200以上のツール
- 1,279ドキュメントの運用マニュアル
つまり、「この患者の事前承認を取って」というシンプルな依頼でも、保険確認→診断コード取得→必要書類準備→提出→フォローアップ...という現実の業務フロー全体をAIに任せるわけです。
各社AIエージェントの成績表
| AIエージェント | Pass@1 |
|---|---|
| Claude Code (Opus 4.6) | 28% |
| OpenAI Codex (GPT-5.5) | 21% |
| その他28エージェント | 20%未満 |
「28%で最高?」と思うかもしれません。
でも考えてください。10人の患者のうち7人の処理に失敗するAIを、あなたの病院で使いたいですか?
ドメイン別の悲惨な結果
利用管理(Utilization Review): 41%
ケアマネジメント: 32%
事前承認(Prior Authorization): 29%
事前承認で29%ということは、保険の事前承認申請の7割が通らないということです。
現実の医療現場では、これは患者の治療遅延を意味します。
本当にヤバいのは「耐久テスト」
単発テストで28%でも問題ですが、耐久テストの結果はさらに衝撃的でした。
信頼性テスト(同じケースを3回実行)
全AIエージェント: 20%以下
同じ患者、同じ状況でも、3回に1回しか同じ結果を出せない。
これは再現性がないということです。医療で最も重要な「一貫性」がないのです。
エンデュランステスト(25件連続処理)
最高性能のAI: 4%未満
25件の連続処理で成功率4%未満。つまり24〜25件は失敗です。
現実の病院では、1人の事務員が1日に数十件の事前承認を処理します。AIに置き換えたら、ほぼ全部失敗するということです。
End-to-Endテスト(AI同士の連携)
成功率: 0%
あるAIが事前承認を申請し、別のAIが審査するシナリオ。
成功したケースはゼロでした。
なぜAIエージェントは医療で失敗するのか
1. 長期コンテキストの維持が苦手
60〜80ステップの処理中に、初期の重要情報を「忘れる」。患者IDや診断コードを途中で取り違えるケースが多発。
2. ドメイン知識の深さ不足
「この保険プランではこの薬はTier 3」「この州ではこの手続きが必要」といった暗黙のルールをAIは知らない。
1,279ドキュメントを与えても、適切なドキュメントを適切なタイミングで参照できない。
3. エラーリカバリーができない
人間なら「あれ、おかしいな」と気づいて修正できる。AIは間違ったまま突き進み、最後に破綻する。
4. マルチシステム連携の複雑さ
21の医療アプリを連携させる必要があるが、一つのシステムでエラーが起きると全体が崩壊。
医療AI投資は無駄だったのか?
2026年だけで医療AI分野には**推定$47B(約7兆円)**が投資されています。
CHI-Benchの結果は、この投資の大部分が時期尚早だった可能性を示唆しています。
医療機関への警告
「AIで人件費削減」を期待して導入を進めている病院は、まずCHI-Benchの結果を確認してください。
現時点のAIエージェントは:
- 単発タスクでも72%失敗
- 連続処理では96%以上失敗
- AI同士の連携は100%失敗
これを「補助ツール」として使うならまだしも、「人間の代替」として導入するのは危険です。
今後の改善に必要なこと
CHI-Benchのリリースは、悲観的なニュースだけではありません。
業界初の実用的なベンチマークができたことで、AIの改善方向が明確になりました。
改善が必要な領域
-
長期コンテキスト管理
- 60〜80ステップを通じて情報を正確に保持する技術
-
ドメイン特化学習
- 医療保険、州法、病院固有ルールの深い理解
-
エラー検知と自己修正
- 「おかしい」と気づいて引き返す能力
-
マルチエージェント協調
- 現在のAI同士連携は0%成功。根本的な設計変更が必要
私たちはどう対応すべきか
医療機関
- AIは「補助」として使う。「代替」として期待しない
- 重要な判断は必ず人間がダブルチェック
- パイロット導入では必ず成功率を計測
AI開発者
- CHI-Benchを自社AIでテストし、弱点を特定
- 長期タスクでの信頼性向上に注力
- 医療ドメイン専門家との協業を強化
投資家
- 「医療AI」銘柄の過度な期待を見直す
- 実際のベンチマーク結果を確認してから投資判断
- 短期的なROIより長期的な技術成熟を重視
まとめ
CHI-Benchが明らかにしたのは、現在のAIエージェントは複雑な業務を任せられるレベルにないという現実です。
- 最高でも28%の成功率
- 連続処理では96%以上が失敗
- AI同士の協調は完全に不可能
「AIで仕事がなくなる」と恐れていた医療事務の方々、まだ安心してください。少なくとも2026年時点では、あなたの仕事はAIに奪われません。
ただし、これは今後も同じとは限りません。CHI-Benchという明確な目標ができたことで、AI各社は急速に改善を進めるでしょう。
1年後、同じベンチマークでどんな結果が出るか。それが本当の勝負です。
参考リンク
Claude, GPT, Gemini Agents Fail 72% of U.S. Healthcare Workflows, New Benchmark Finds
State of AI: May 2026 - Air Street Press
この記事が参考になったら、いいねとストックをお願いします!
質問: あなたの職場ではAIエージェントを導入していますか?成功率はどのくらいですか?コメントで教えてください!