対象読者: 生成AIを業務や学習で使い始めた医療従事者。ChatGPTやGeminiの回答を「そのまま信じていいのか?」と不安を感じている方。
読了時間: 約12分
概念オーバービュー —
生成AIは「物知り博士」みたいだ。何でも知ってそうで、自信たっぷりに答えてくれる。ただし、本当は知らないことまで、知ってるかのように答えてしまう癖がある。それがハルシネーション(幻覚)だ。
想像してみてほしい。頭がいい友人に「このお医者さんの最新論文は?」と聞いたら、もっともらしい題名を教えてくれた。その友人は「本当にあるかどうか確かめる」という作業をしていない。ただ「こういう題名なら存在していそうだな」という感覚で答えているだけ——それがAIだ。
コンピュータは内部で0と1(2進数)で全ての情報を処理している。その過程で、AIは膨大なテキストデータから「パターン」を学習している。しかし学習と事実確認は別物。だから、自信満々に嘘をつくことになる。この記事では、医療現場でそれがなぜ危険なのか、そしてどう付き合うべきかを整理する。
はじめに
先日、ある医療従事者が「透析における抗凝固療法の最新論文を教えて」とChatGPTに質問した。返ってきた回答には、もっともらしい論文タイトル、著者名、ジャーナル名が並んでいた。しかし、PubMedで検索すると——その論文は一つも実在しなかった。
これがハルシネーションだ。生成AIが事実に基づかない情報を、あたかも本当のことのように出力する現象。前回の記事で「情報の信頼性をどう評価するか」を整理したが、AI時代にはもうひとつ大きな課題がある。情報源そのものが「捏造」されうるという点だ。
生成AIの仕組み — 「次の単語を予測する機械」
生成AIの動作原理は、意外なほどシンプルだ。
「次に来る可能性が最も高い単語」を連続的に予測している——これが基本である。
コンピュータの内部では、すべての情報が0と1の2進数で処理されている。文字、数字、画像——何もかもが0と1の組み合わせに変換される。生成AIも例外ではない。学習データとして与えられた膨大なテキストは、2進数に変換され、その統計的なパターンが神経回路(ニューラルネットワーク)に記録される。
このプロセスで、AIは「単語の次に来やすい単語」というパターンを学習する。医療文書なら「臨床工学技士の主な業務は」と入力されると、学習データから「その次に来やすい単語は何か」を確率で予測する。
入力: 「臨床工学技士の主な業務は」
AI内部(2進数処理の結果):
「人工」(確率85%)
→ 「心肺」(確率72%)
→ 「装置の」(確率68%)
→ 「管理」(確率64%)
重要なのは、AIは「意味を理解」しているわけではないということだ。大量のテキストから学習した統計的パターンに基づいて、「自然に見える文章」を生成しているだけである。文法的に正しく、文脈にも合っている——しかし事実かどうかは別問題。これが医療現場で重大な問題になる。
主要な生成AIサービス
現在よく使われている生成AIサービスを押さえておこう。
| サービス | 提供元 | 特徴 |
|---|---|---|
| Gemini | 検索エンジンとの連携、マルチモーダル対応 | |
| ChatGPT | OpenAI | 最初に一般普及した生成AI。プラグイン拡張も豊富 |
| Claude | Anthropic | 安全性と正確性を重視した設計思想 |
どのサービスもハルシネーションのリスクはゼロではない。ツールの特性を理解した上で使い分けることが大切だ。
ハルシネーションとは何か
ハルシネーション(幻覚) = AIが事実に基づかない、もっともらしい情報を生成する現象である。
より正確には、「確率的に自然に見えるが、実際には事実ではない情報」を出力することだ。重要な点は、AIが意図的に嘘をついているわけではないということ。AIには嘘をつく動機も意図も存在しない。ただ「次に来やすい単語」というパターンに従った結果、虚偽が生じているのだ。
なぜ起きるのか
生成AIの設計目標は「確率的に自然な文章を作ること」であり、「事実かどうかを検証すること」ではない。2進数で処理された統計パターンには「真実」という概念が含まれていないのだ。だから、存在しない論文でも「それっぽい」タイトル・著者名・ジャーナル名を組み合わせて出力してしまう。
具体的なメカニズムは以下のようになる。AIが学習したテキストデータには、実在する論文タイトル(「持続的血液透析の新しい治療法」など)と、医学出版社の名前(「Journal of」「Therapy」など)が多く含まれている。AIはこれらの単語の組み合わせパターンから「医学論文っぽい題名」を生成する能力を獲得する。しかし、その組み合わせが実際に存在するかどうかは確認していない。
ユーザー: 「田中一郎教授の2023年の透析論文は?」
AI: 「田中一郎教授は2023年にJournal of Dialysis Therapyに
『持続的血液透析の新知見』を発表しました。」
→ 実際にはこの論文は存在しない
(AIが統計的にもっともらしい単語の組み合わせを生成しただけ)
このプロセスで、AIの出力は一貫性があり、文脈も整っているため、読み手は「本当にあるのではないか」と思い込みやすい。これが医療現場で極めて危険になる。
医療分野でのハルシネーションが特に危険な理由
一般的な雑談であれば、ハルシネーションは「間違い」程度で済む。レストランの推薦が外れても、損失は時間と金銭だけだ。しかし医療分野では、それが命に関わる誤情報になりうるため、事情が全く異なる。
AIが提示した間違った情報に基づいて治療判断が下されると、患者に直接的な身体的危害が及ぶ可能性がある。医療はハイリスク環境であり、「ほぼ正しい」は「完全に正しい」と同じ価値を持たない。99%正しい用量の指示でさえ、その1%の誤差が生死を分けることがある。
| リスクの種類 | 具体的なシナリオ | 危機レベル |
|---|---|---|
| 架空の論文引用 | 存在しない研究を根拠にした治療判断を行う。「エビデンスがある」という信念が医療行為の正当化に使われる | 高 |
| 誤った薬の用量 | AIが「1日10mg」と返答したが、実際には「1日1mg」が標準。10倍過剰投与で重篤な副作用が発生 | 極高 |
| 古いガイドラインの引用 | 現在は推奨されない治療法をAIが「最新」として回答。医学は日々進化しており、昨年のガイドラインが今年は無効化されることもある | 高 |
| 存在しない医薬品名 | 架空の薬剤名が生成され、確認なしに報告書や処方箋に記載されてしまう。チェーン全体が破壊される | 極高 |
| 存在しない検査値の標準値 | AIが「血清クレアチニンの正常値は1.5-2.0 mg/dL」と答えたが、実際は0.6-1.2。診断が完全に逆転する可能性 | 極高 |
これらは単なる「間違い」ではなく、患者ケアの質を直接的に低下させる事象である。
医療現場でAIを使う際の大原則
医療分野でAIを活用する場合、遵守すべき絶対的なルールが存在する。
AIの回答はすべて人間が最終確認する
これは単なる推奨事項ではなく、医療倫理と法的責任の観点から不可欠な原則である。医学的な判断や患者ケアに関わるAIの出力は、必ず有資格の医療従事者による検証を経なければならない。AIは「初期情報源」「参考ツール」であり、「意思決定の最終権者」ではあり得ない。
実務的には以下のようになる:
- AIが提示した用量 → 公式な医薬品添付文書で確認
- AIが引用した論文 → PubMedで原著論文を検索して内容を確認
- AIが提案した診療方針 → 最新の医学ガイドラインと照合
- AIが生成した画像解析結果 → 画像医学の専門家による判定
責任は常に人間にある。AIの便利さに引き寄せられて、この原則を妥協してはいけない。
自動化バイアス — 人間側に潜むリスク
技術的なリスク(ハルシネーション)に加えて、人間側にも落とし穴がある。自動化バイアスだ。
自動化バイアスとは
自動化バイアスは、コンピュータやAIの出力を無条件に信頼してしまう心理的傾向のこと。「機械が言っているから、人間の判断より信頼できるだろう」と思い込む現象である。「AIが言っているから正しいだろう」と思考停止してしまう場面は、実は臨床現場でもよく見られる。
たとえば、患者モニタのアラームが鳴った時に、その原因を確認しないまま「モニタが言ってるなら、そうなんだろう」と無意識に信じてしまう。医療機器の故障、キャリブレーション誤差、アーティファクト——いろいろな理由でアラームは誤ることがある。それでも、機械の出力に人間の判断が支配されやすいのだ。
なぜAIは特に自動化バイアスを誘発するのか
生成AIの出力は「自然で読みやすい文章」という形式で返ってくる。医学知識を持つ医療従事者が読むと、「もっともらしく」「権威的に」感じられる。AIは論文タイトルの引用も上手いし、医学用語も正確に使う。その結果、人間は内容を疑いにくくなる。
医療機器のアラーム vs 生成AIの出力
医療機器: 「アラーム音」← 何か異常を示唆している
でも実は誤検知かもしれない(臨床判断で検証できる)
生成AI: 「もっともらしい文章」← 正しそうに聞こえる
でも実は根拠がないかもしれない(確認にもっと手間がかかる)
さらに問題なのは、AIの出力は「高い読解性」のため、異常に気づきにくいということだ。短い数字のアラームより、説得力ある文章の方が、人間の批判的思考を麻痺させやすい。
自動化バイアスへの対策
流暢さと正確さは別物だという意識を常に持つことが、自動化バイアスへの最大の防御である。
実践的なアプローチ:
- AIの出力を「暫定的な仮説」と位置づける — 「最終答」ではなく、検証の出発点
- 常に「根拠は何か」と問う習慣 — 引用、出典、エビデンス元を確認する癖をつける
- 複数情報源の参照 — AIの答えだけではなく、公式ガイドラインや原著論文も見る
- 同僚とのディスカッション — 「AIがこう言ってるけど、どう思う?」と他者の視点を取り入れる
医療はチーム医療だ。自動化バイアスに陥らないためにも、AIを「優秀だが信用しすぎてはいけない同僚」くらいの距離感で使うのがちょうどいい。
ハルシネーションを見分ける実践テクニック
医療現場でハルシネーションを識別し、信頼できる情報を確保するには、体系的なアプローチが必要だ。
4つのチェックポイント
-
一次情報で裏取り — PubMedや公式ガイドラインで必ず確認する
- AIが引用した論文は本当に存在するか
- 発表年、著者名、学会名はすべて一致しているか
-
具体的な引用を検証 — 論文名・著者名・ジャーナル名が実在するか検索する
- 特に「新しい」とされている情報ほど疑う
- 医学では数年で常識が変わることも珍しくない
-
複数のソースで比較 — AIの回答だけに頼らず、別の情報源と照合する
- 異なるAIサービス(ChatGPT、Gemini、Claude)での比較
- 複数の医学ガイドライン資料との照合
- 実務経験が長い同僚への確認
-
数値や具体性の度合いを評価する
- AIが具体的な数値を挙げている場合、その出典を必ず確認する
- 「おおよそ」「通常は」という曖昧な表現より、具体数値の方が信頼できそうに見えるが、実は出典なしに数値を生成している可能性も高い
実務で使えるワークフロー
AIに質問する
↓
医学的に重要な決定か?
├─ YES → 以下の検証を全て実施
└─ NO → 参考程度の使用OK
↓
「この回答の根拠となる論文を教えて」と追加で聞く
↓
返ってきた論文タイトルをPubMedで検索する
↓
見つからない → ハルシネーションの可能性大(使用中止)
見つかった → その論文の原文を確認して内容が一致しているか見る
(タイトルだけ合致して内容が違うケースもある)
↓
最新の医学ガイドライン(診療ガイドラインなど)で確認
↓
OK → AIの情報は補助的な参考資料として活用
この流程を忍耐強く回すことが、医療の現場知を守る唯一の方法である。
筆者の経験から
筆者自身も、初期段階ではAIの回答をそのまま使ったことでレビュー時に指摘を受けた経験がある。「これは確実だと思っていたのに、実は論文が存在していなかった」——その悔しさが、以後のアプローチを変えた。それ以来、「AIの出力は下書き、最終確認は自分」というルールを徹底している。
実務では、この一手間が回避できるリスクは計り知れない。
ディープフェイクと医療情報
ハルシネーションはテキストだけの問題ではない。生成AIは画像や動画も作成でき、ディープフェイクのリスクも医療領域に急速に広がっている。
テキストから画像へ:医療情報の改ざんリスク
- 偽の医療画像: AIで生成されたレントゲン写真、CT画像、超音波像が研究不正に使われる可能性。見た目が極めてリアルになってきているため、専門家の目でも見分けが難しくなっている
- SNS上の偽医療情報: 権威ある医師を装った偽アカウントが、もっともらしい医療情報を発信する。特にX(旧Twitter)などでのインフルエンサー医師の偽アカウント
- 医学論文内での不正画像使用: AIで生成した画像を「実験結果」として学術論文に挿入する悪質な事例も報告されている
ハルシネーションとディープフェイクの組み合わせ:最悪のシナリオ
「偽の画像」と「偽の論文」が組み合わさると、検証がさらに困難になる。
例:AI生成の「CT画像」とAI生成の「論文」がセットで出現 → 人間の確認作業が指数関数的に増加する
医療分野での対策
「見た目がリアル ≠ 本物」——この原則は、テキストでも画像でも変わらない。
具体的には:
- 画像ソースの確認: どの医療機関で、誰が撮影したのか、メタデータは改ざんされていないか
- 複数の専門家による判定: 特に診断に関わる画像は、複数の医師による検証が必須
- 論文の二次情報源の確認: 引用されている論文が実在するか、その画像がその論文で実際に使われているか
前回の記事で学んだCRAAPテスト(Currency, Relevance, Authority, Accuracy, Purpose)の「Authority(権威性)」と「Accuracy(正確性)」の確認が、ここでも有効だ。しかし、AIの時代には、それでも不十分な場合がある。追加的に「その情報は本当に信頼できる人物/機関から来ているのか」「その画像は本当にその医療機関で撮影されたのか」という層の検証が必要になる。
まとめ:AI時代の医療現場の心構え
生成AIは「次の単語の予測」という統計処理が基本原理であり、事実の検証は行っていない。2進数で処理された膨大なテキストパターンから「もっともらしい」文章を生成する能力に長けているが、その文が真実であるかどうかは、AIの設計そのものに含まれていない。だからこそ、ハルシネーション——もっともらしいが事実ではない情報——が自信を持って出力される。
医療分野では命に関わるリスクがあるため、以下の原則の遵守が不可欠である:
- AIの回答はすべて人間が最終確認する(医療現場でのAI活用の大原則)
- 必ず一次情報で裏取りする習慣をつけること
- 自動化バイアスに陥らない——「流暢さ」と「正確さ」は別物
- 複数情報源の参照——AIの答えだけに頼らない
- ディープフェイク時代への準備——テキストだけでなく、画像や動画の真贋判定も重要に
同時に、AIを完全に排除するのではなく、「優秀だが信用しすぎてはいけない同僚」くらいに位置づけるのがちょうどいい。AIは医療の生産性を上げる強力なツールだ。その力を活かしながら、人間の判断と責任を失わないことが、AI時代の医療の質を守る鍵となる。
現場の医療従事者一人ひとりが、この「慎重さ」を日々実践することで初めて、AIのメリットとリスクのバランスが成立する。
次の記事では、AIに情報を入力する際のもうひとつの重要な論点——個人情報保護とデータセキュリティの問題を詳しく扱う予定である。
参考資料
AI基礎知識
ハルシネーション関連
- 参考文献:「Hallucination in Large Language Models」(arxiv等での学術論文)
- 実践的な検証方法:PubMed(https://pubmed.ncbi.nlm.nih.gov/)での文献確認
医療分野のAI規制
自動化バイアス研究
- リクリムスキ・フィレロ(2016)「Automation bias」関連の心理学研究
- 医療現場での自動化バイアスの事例研究
診療現場での実践
- 各診療科のガイドライン(日本内科学会、日本外科学会など)
- 施設内のAI使用ポリシーの策定に関する参考資料