0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【現場の落とし穴】生成AIのハルシネーション — なぜAIは「もっともらしい嘘」をつくのか

0
Last updated at Posted at 2026-03-19

対象読者: 生成AIを業務や学習で使い始めた医療従事者。ChatGPTやGeminiの回答を「そのまま信じていいのか?」と不安を感じている方。
読了時間: 約12分

概念オーバービュー —

生成AIは「物知り博士」みたいだ。何でも知ってそうで、自信たっぷりに答えてくれる。ただし、本当は知らないことまで、知ってるかのように答えてしまう癖がある。それがハルシネーション(幻覚)だ。

想像してみてほしい。頭がいい友人に「このお医者さんの最新論文は?」と聞いたら、もっともらしい題名を教えてくれた。その友人は「本当にあるかどうか確かめる」という作業をしていない。ただ「こういう題名なら存在していそうだな」という感覚で答えているだけ——それがAIだ。

コンピュータは内部で0と1(2進数)で全ての情報を処理している。その過程で、AIは膨大なテキストデータから「パターン」を学習している。しかし学習と事実確認は別物。だから、自信満々に嘘をつくことになる。この記事では、医療現場でそれがなぜ危険なのか、そしてどう付き合うべきかを整理する。

はじめに

先日、ある医療従事者が「透析における抗凝固療法の最新論文を教えて」とChatGPTに質問した。返ってきた回答には、もっともらしい論文タイトル、著者名、ジャーナル名が並んでいた。しかし、PubMedで検索すると——その論文は一つも実在しなかった。

これがハルシネーションだ。生成AIが事実に基づかない情報を、あたかも本当のことのように出力する現象。前回の記事で「情報の信頼性をどう評価するか」を整理したが、AI時代にはもうひとつ大きな課題がある。情報源そのものが「捏造」されうるという点だ。

生成AIの仕組み — 「次の単語を予測する機械」

生成AIの動作原理は、意外なほどシンプルだ。

「次に来る可能性が最も高い単語」を連続的に予測している——これが基本である。

コンピュータの内部では、すべての情報が0と1の2進数で処理されている。文字、数字、画像——何もかもが0と1の組み合わせに変換される。生成AIも例外ではない。学習データとして与えられた膨大なテキストは、2進数に変換され、その統計的なパターンが神経回路(ニューラルネットワーク)に記録される。

このプロセスで、AIは「単語の次に来やすい単語」というパターンを学習する。医療文書なら「臨床工学技士の主な業務は」と入力されると、学習データから「その次に来やすい単語は何か」を確率で予測する。

入力: 「臨床工学技士の主な業務は」
AI内部(2進数処理の結果):
  「人工」(確率85%)
  → 「心肺」(確率72%)
  → 「装置の」(確率68%)
  → 「管理」(確率64%)

重要なのは、AIは「意味を理解」しているわけではないということだ。大量のテキストから学習した統計的パターンに基づいて、「自然に見える文章」を生成しているだけである。文法的に正しく、文脈にも合っている——しかし事実かどうかは別問題。これが医療現場で重大な問題になる。

主要な生成AIサービス

現在よく使われている生成AIサービスを押さえておこう。

サービス 提供元 特徴
Gemini Google 検索エンジンとの連携、マルチモーダル対応
ChatGPT OpenAI 最初に一般普及した生成AI。プラグイン拡張も豊富
Claude Anthropic 安全性と正確性を重視した設計思想

どのサービスもハルシネーションのリスクはゼロではない。ツールの特性を理解した上で使い分けることが大切だ。

ハルシネーションとは何か

ハルシネーション(幻覚) = AIが事実に基づかない、もっともらしい情報を生成する現象である。

より正確には、「確率的に自然に見えるが、実際には事実ではない情報」を出力することだ。重要な点は、AIが意図的に嘘をついているわけではないということ。AIには嘘をつく動機も意図も存在しない。ただ「次に来やすい単語」というパターンに従った結果、虚偽が生じているのだ。

なぜ起きるのか

生成AIの設計目標は「確率的に自然な文章を作ること」であり、「事実かどうかを検証すること」ではない。2進数で処理された統計パターンには「真実」という概念が含まれていないのだ。だから、存在しない論文でも「それっぽい」タイトル・著者名・ジャーナル名を組み合わせて出力してしまう。

具体的なメカニズムは以下のようになる。AIが学習したテキストデータには、実在する論文タイトル(「持続的血液透析の新しい治療法」など)と、医学出版社の名前(「Journal of」「Therapy」など)が多く含まれている。AIはこれらの単語の組み合わせパターンから「医学論文っぽい題名」を生成する能力を獲得する。しかし、その組み合わせが実際に存在するかどうかは確認していない。

ユーザー: 「田中一郎教授の2023年の透析論文は?」
AI: 「田中一郎教授は2023年にJournal of Dialysis Therapyに
    『持続的血液透析の新知見』を発表しました。」

→ 実際にはこの論文は存在しない
(AIが統計的にもっともらしい単語の組み合わせを生成しただけ)

このプロセスで、AIの出力は一貫性があり、文脈も整っているため、読み手は「本当にあるのではないか」と思い込みやすい。これが医療現場で極めて危険になる。

医療分野でのハルシネーションが特に危険な理由

一般的な雑談であれば、ハルシネーションは「間違い」程度で済む。レストランの推薦が外れても、損失は時間と金銭だけだ。しかし医療分野では、それが命に関わる誤情報になりうるため、事情が全く異なる。

AIが提示した間違った情報に基づいて治療判断が下されると、患者に直接的な身体的危害が及ぶ可能性がある。医療はハイリスク環境であり、「ほぼ正しい」は「完全に正しい」と同じ価値を持たない。99%正しい用量の指示でさえ、その1%の誤差が生死を分けることがある。

リスクの種類 具体的なシナリオ 危機レベル
架空の論文引用 存在しない研究を根拠にした治療判断を行う。「エビデンスがある」という信念が医療行為の正当化に使われる
誤った薬の用量 AIが「1日10mg」と返答したが、実際には「1日1mg」が標準。10倍過剰投与で重篤な副作用が発生 極高
古いガイドラインの引用 現在は推奨されない治療法をAIが「最新」として回答。医学は日々進化しており、昨年のガイドラインが今年は無効化されることもある
存在しない医薬品名 架空の薬剤名が生成され、確認なしに報告書や処方箋に記載されてしまう。チェーン全体が破壊される 極高
存在しない検査値の標準値 AIが「血清クレアチニンの正常値は1.5-2.0 mg/dL」と答えたが、実際は0.6-1.2。診断が完全に逆転する可能性 極高

これらは単なる「間違い」ではなく、患者ケアの質を直接的に低下させる事象である。

医療現場でAIを使う際の大原則

医療分野でAIを活用する場合、遵守すべき絶対的なルールが存在する。

AIの回答はすべて人間が最終確認する

これは単なる推奨事項ではなく、医療倫理と法的責任の観点から不可欠な原則である。医学的な判断や患者ケアに関わるAIの出力は、必ず有資格の医療従事者による検証を経なければならない。AIは「初期情報源」「参考ツール」であり、「意思決定の最終権者」ではあり得ない。

実務的には以下のようになる:

  • AIが提示した用量 → 公式な医薬品添付文書で確認
  • AIが引用した論文 → PubMedで原著論文を検索して内容を確認
  • AIが提案した診療方針 → 最新の医学ガイドラインと照合
  • AIが生成した画像解析結果 → 画像医学の専門家による判定

責任は常に人間にある。AIの便利さに引き寄せられて、この原則を妥協してはいけない。

自動化バイアス — 人間側に潜むリスク

技術的なリスク(ハルシネーション)に加えて、人間側にも落とし穴がある。自動化バイアスだ。

自動化バイアスとは

自動化バイアスは、コンピュータやAIの出力を無条件に信頼してしまう心理的傾向のこと。「機械が言っているから、人間の判断より信頼できるだろう」と思い込む現象である。「AIが言っているから正しいだろう」と思考停止してしまう場面は、実は臨床現場でもよく見られる。

たとえば、患者モニタのアラームが鳴った時に、その原因を確認しないまま「モニタが言ってるなら、そうなんだろう」と無意識に信じてしまう。医療機器の故障、キャリブレーション誤差、アーティファクト——いろいろな理由でアラームは誤ることがある。それでも、機械の出力に人間の判断が支配されやすいのだ。

なぜAIは特に自動化バイアスを誘発するのか

生成AIの出力は「自然で読みやすい文章」という形式で返ってくる。医学知識を持つ医療従事者が読むと、「もっともらしく」「権威的に」感じられる。AIは論文タイトルの引用も上手いし、医学用語も正確に使う。その結果、人間は内容を疑いにくくなる。

医療機器のアラーム vs 生成AIの出力

医療機器: 「アラーム音」← 何か異常を示唆している
          でも実は誤検知かもしれない(臨床判断で検証できる)

生成AI:  「もっともらしい文章」← 正しそうに聞こえる
         でも実は根拠がないかもしれない(確認にもっと手間がかかる)

さらに問題なのは、AIの出力は「高い読解性」のため、異常に気づきにくいということだ。短い数字のアラームより、説得力ある文章の方が、人間の批判的思考を麻痺させやすい。

自動化バイアスへの対策

流暢さと正確さは別物だという意識を常に持つことが、自動化バイアスへの最大の防御である。

実践的なアプローチ:

  1. AIの出力を「暫定的な仮説」と位置づける — 「最終答」ではなく、検証の出発点
  2. 常に「根拠は何か」と問う習慣 — 引用、出典、エビデンス元を確認する癖をつける
  3. 複数情報源の参照 — AIの答えだけではなく、公式ガイドラインや原著論文も見る
  4. 同僚とのディスカッション — 「AIがこう言ってるけど、どう思う?」と他者の視点を取り入れる

医療はチーム医療だ。自動化バイアスに陥らないためにも、AIを「優秀だが信用しすぎてはいけない同僚」くらいの距離感で使うのがちょうどいい。

ハルシネーションを見分ける実践テクニック

医療現場でハルシネーションを識別し、信頼できる情報を確保するには、体系的なアプローチが必要だ。

4つのチェックポイント

  1. 一次情報で裏取り — PubMedや公式ガイドラインで必ず確認する

    • AIが引用した論文は本当に存在するか
    • 発表年、著者名、学会名はすべて一致しているか
  2. 具体的な引用を検証 — 論文名・著者名・ジャーナル名が実在するか検索する

    • 特に「新しい」とされている情報ほど疑う
    • 医学では数年で常識が変わることも珍しくない
  3. 複数のソースで比較 — AIの回答だけに頼らず、別の情報源と照合する

    • 異なるAIサービス(ChatGPT、Gemini、Claude)での比較
    • 複数の医学ガイドライン資料との照合
    • 実務経験が長い同僚への確認
  4. 数値や具体性の度合いを評価する

    • AIが具体的な数値を挙げている場合、その出典を必ず確認する
    • 「おおよそ」「通常は」という曖昧な表現より、具体数値の方が信頼できそうに見えるが、実は出典なしに数値を生成している可能性も高い

実務で使えるワークフロー

AIに質問する
  ↓
医学的に重要な決定か?
  ├─ YES → 以下の検証を全て実施
  └─ NO → 参考程度の使用OK
  ↓
「この回答の根拠となる論文を教えて」と追加で聞く
  ↓
返ってきた論文タイトルをPubMedで検索する
  ↓
見つからない → ハルシネーションの可能性大(使用中止)
見つかった → その論文の原文を確認して内容が一致しているか見る
          (タイトルだけ合致して内容が違うケースもある)
  ↓
最新の医学ガイドライン(診療ガイドラインなど)で確認
  ↓
OK → AIの情報は補助的な参考資料として活用

この流程を忍耐強く回すことが、医療の現場知を守る唯一の方法である。

筆者の経験から

筆者自身も、初期段階ではAIの回答をそのまま使ったことでレビュー時に指摘を受けた経験がある。「これは確実だと思っていたのに、実は論文が存在していなかった」——その悔しさが、以後のアプローチを変えた。それ以来、「AIの出力は下書き、最終確認は自分」というルールを徹底している。

実務では、この一手間が回避できるリスクは計り知れない。

ディープフェイクと医療情報

ハルシネーションはテキストだけの問題ではない。生成AIは画像や動画も作成でき、ディープフェイクのリスクも医療領域に急速に広がっている。

テキストから画像へ:医療情報の改ざんリスク

  • 偽の医療画像: AIで生成されたレントゲン写真、CT画像、超音波像が研究不正に使われる可能性。見た目が極めてリアルになってきているため、専門家の目でも見分けが難しくなっている
  • SNS上の偽医療情報: 権威ある医師を装った偽アカウントが、もっともらしい医療情報を発信する。特にX(旧Twitter)などでのインフルエンサー医師の偽アカウント
  • 医学論文内での不正画像使用: AIで生成した画像を「実験結果」として学術論文に挿入する悪質な事例も報告されている

ハルシネーションとディープフェイクの組み合わせ:最悪のシナリオ

「偽の画像」と「偽の論文」が組み合わさると、検証がさらに困難になる。

例:AI生成の「CT画像」とAI生成の「論文」がセットで出現 → 人間の確認作業が指数関数的に増加する

医療分野での対策

「見た目がリアル ≠ 本物」——この原則は、テキストでも画像でも変わらない。

具体的には:

  • 画像ソースの確認: どの医療機関で、誰が撮影したのか、メタデータは改ざんされていないか
  • 複数の専門家による判定: 特に診断に関わる画像は、複数の医師による検証が必須
  • 論文の二次情報源の確認: 引用されている論文が実在するか、その画像がその論文で実際に使われているか

前回の記事で学んだCRAAPテスト(Currency, Relevance, Authority, Accuracy, Purpose)の「Authority(権威性)」と「Accuracy(正確性)」の確認が、ここでも有効だ。しかし、AIの時代には、それでも不十分な場合がある。追加的に「その情報は本当に信頼できる人物/機関から来ているのか」「その画像は本当にその医療機関で撮影されたのか」という層の検証が必要になる。

まとめ:AI時代の医療現場の心構え

生成AIは「次の単語の予測」という統計処理が基本原理であり、事実の検証は行っていない。2進数で処理された膨大なテキストパターンから「もっともらしい」文章を生成する能力に長けているが、その文が真実であるかどうかは、AIの設計そのものに含まれていない。だからこそ、ハルシネーション——もっともらしいが事実ではない情報——が自信を持って出力される。

医療分野では命に関わるリスクがあるため、以下の原則の遵守が不可欠である:

  1. AIの回答はすべて人間が最終確認する(医療現場でのAI活用の大原則)
  2. 必ず一次情報で裏取りする習慣をつけること
  3. 自動化バイアスに陥らない——「流暢さ」と「正確さ」は別物
  4. 複数情報源の参照——AIの答えだけに頼らない
  5. ディープフェイク時代への準備——テキストだけでなく、画像や動画の真贋判定も重要に

同時に、AIを完全に排除するのではなく、「優秀だが信用しすぎてはいけない同僚」くらいに位置づけるのがちょうどいい。AIは医療の生産性を上げる強力なツールだ。その力を活かしながら、人間の判断と責任を失わないことが、AI時代の医療の質を守る鍵となる。

現場の医療従事者一人ひとりが、この「慎重さ」を日々実践することで初めて、AIのメリットとリスクのバランスが成立する。

次の記事では、AIに情報を入力する際のもうひとつの重要な論点——個人情報保護とデータセキュリティの問題を詳しく扱う予定である。

参考資料

AI基礎知識

ハルシネーション関連

医療分野のAI規制

自動化バイアス研究

  • リクリムスキ・フィレロ(2016)「Automation bias」関連の心理学研究
  • 医療現場での自動化バイアスの事例研究

診療現場での実践

  • 各診療科のガイドライン(日本内科学会、日本外科学会など)
  • 施設内のAI使用ポリシーの策定に関する参考資料
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?