1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【衝撃】Claude・GPT・Geminiが医療現場で72%失敗!CHI-Benchが暴いた「AIエージェントは病院で使えない」残酷な真実

1
Posted at

「AIで医療が変わる」と騒いでいたあなたへ。

昨日(2026年5月20日)発表されたベンチマークが、AI業界に衝撃を与えました。

最新のClaude、GPT-5.5、Geminiを含む30のAIエージェントが、米国の医療ワークフローで72%失敗したのです。

結論から言うと

  • 最高性能のClaude Opus 4.6でも成功率はたった28%
  • 同じケースを3回実行すると、成功率は20%以下に暴落
  • 25件連続処理させると、96%以上が失敗
  • AI同士で業務を回したら、成功率ゼロ

これが「医療AIエージェント」の現実です。

CHI-Benchとは何か

CHI-Bench(Clinical Healthcare Intelligence Benchmark)は、AI企業actAVA.aiが開発した**世界初の「長期医療ベンチマーク」**です。

従来のベンチマークが「1問1答」形式だったのに対し、CHI-Benchは実際の病院業務を再現しています。

CHI-Benchの規模

  • 75種類の実際の医療ワークフロー
  • 各タスクは60〜80ステップ、4〜6の臨床段階を横断
  • 21の医療アプリをMCPで連携
  • 200以上のツール
  • 1,279ドキュメントの運用マニュアル

つまり、「この患者の事前承認を取って」というシンプルな依頼でも、保険確認→診断コード取得→必要書類準備→提出→フォローアップ...という現実の業務フロー全体をAIに任せるわけです。

各社AIエージェントの成績表

AIエージェント Pass@1
Claude Code (Opus 4.6) 28%
OpenAI Codex (GPT-5.5) 21%
その他28エージェント 20%未満

「28%で最高?」と思うかもしれません。

でも考えてください。10人の患者のうち7人の処理に失敗するAIを、あなたの病院で使いたいですか?

ドメイン別の悲惨な結果

利用管理(Utilization Review): 41%
ケアマネジメント: 32%
事前承認(Prior Authorization): 29%

事前承認で29%ということは、保険の事前承認申請の7割が通らないということです。

現実の医療現場では、これは患者の治療遅延を意味します。

本当にヤバいのは「耐久テスト」

単発テストで28%でも問題ですが、耐久テストの結果はさらに衝撃的でした。

信頼性テスト(同じケースを3回実行)

全AIエージェント: 20%以下

同じ患者、同じ状況でも、3回に1回しか同じ結果を出せない。

これは再現性がないということです。医療で最も重要な「一貫性」がないのです。

エンデュランステスト(25件連続処理)

最高性能のAI: 4%未満

25件の連続処理で成功率4%未満。つまり24〜25件は失敗です。

現実の病院では、1人の事務員が1日に数十件の事前承認を処理します。AIに置き換えたら、ほぼ全部失敗するということです。

End-to-Endテスト(AI同士の連携)

成功率: 0%

あるAIが事前承認を申請し、別のAIが審査するシナリオ。

成功したケースはゼロでした。

なぜAIエージェントは医療で失敗するのか

1. 長期コンテキストの維持が苦手

60〜80ステップの処理中に、初期の重要情報を「忘れる」。患者IDや診断コードを途中で取り違えるケースが多発。

2. ドメイン知識の深さ不足

「この保険プランではこの薬はTier 3」「この州ではこの手続きが必要」といった暗黙のルールをAIは知らない。

1,279ドキュメントを与えても、適切なドキュメントを適切なタイミングで参照できない。

3. エラーリカバリーができない

人間なら「あれ、おかしいな」と気づいて修正できる。AIは間違ったまま突き進み、最後に破綻する。

4. マルチシステム連携の複雑さ

21の医療アプリを連携させる必要があるが、一つのシステムでエラーが起きると全体が崩壊。

医療AI投資は無駄だったのか?

2026年だけで医療AI分野には**推定$47B(約7兆円)**が投資されています。

CHI-Benchの結果は、この投資の大部分が時期尚早だった可能性を示唆しています。

医療機関への警告

「AIで人件費削減」を期待して導入を進めている病院は、まずCHI-Benchの結果を確認してください。

現時点のAIエージェントは:

  • 単発タスクでも72%失敗
  • 連続処理では96%以上失敗
  • AI同士の連携は100%失敗

これを「補助ツール」として使うならまだしも、「人間の代替」として導入するのは危険です。

今後の改善に必要なこと

CHI-Benchのリリースは、悲観的なニュースだけではありません。

業界初の実用的なベンチマークができたことで、AIの改善方向が明確になりました。

改善が必要な領域

  1. 長期コンテキスト管理

    • 60〜80ステップを通じて情報を正確に保持する技術
  2. ドメイン特化学習

    • 医療保険、州法、病院固有ルールの深い理解
  3. エラー検知と自己修正

    • 「おかしい」と気づいて引き返す能力
  4. マルチエージェント協調

    • 現在のAI同士連携は0%成功。根本的な設計変更が必要

私たちはどう対応すべきか

医療機関

  • AIは「補助」として使う。「代替」として期待しない
  • 重要な判断は必ず人間がダブルチェック
  • パイロット導入では必ず成功率を計測

AI開発者

  • CHI-Benchを自社AIでテストし、弱点を特定
  • 長期タスクでの信頼性向上に注力
  • 医療ドメイン専門家との協業を強化

投資家

  • 「医療AI」銘柄の過度な期待を見直す
  • 実際のベンチマーク結果を確認してから投資判断
  • 短期的なROIより長期的な技術成熟を重視

まとめ

CHI-Benchが明らかにしたのは、現在のAIエージェントは複雑な業務を任せられるレベルにないという現実です。

  • 最高でも28%の成功率
  • 連続処理では96%以上が失敗
  • AI同士の協調は完全に不可能

「AIで仕事がなくなる」と恐れていた医療事務の方々、まだ安心してください。少なくとも2026年時点では、あなたの仕事はAIに奪われません。

ただし、これは今後も同じとは限りません。CHI-Benchという明確な目標ができたことで、AI各社は急速に改善を進めるでしょう。

1年後、同じベンチマークでどんな結果が出るか。それが本当の勝負です。


参考リンク

Claude, GPT, Gemini Agents Fail 72% of U.S. Healthcare Workflows, New Benchmark Finds

State of AI: May 2026 - Air Street Press


この記事が参考になったら、いいねとストックをお願いします!

質問: あなたの職場ではAIエージェントを導入していますか?成功率はどのくらいですか?コメントで教えてください!

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?