日々の仕事でAIを使っているけど、「なんかそれらしいことが書かれているんだけど、色々間違えているんだよなぁ…」や「ぜんぜん内容が違う」といった事象に出会ったことがあると思います。
これは「ハルシネーション(もっともらしい嘘)」と呼ばれ、AIを使う上で最も厄介な部分です。
このため、AIが生成したデータをチェックせずに利用することができず、かえって時間がかかってしまうという事態にもなりかねません。
ハルシネーションはAIの仕組み上、抑止できない!?
ハルシネーションが起きる仕組みは、AIが回答を生成する際に検索ではなく確率的な単語予測を行っているからです。
また、文章やプロンプトの意味や真偽を理解しないため、もっともらしい虚偽(ハルシネーション)の回答を生むことがあります。
仕様だとしても、なんとかしてハルシネーションを抑えたい、少しでも低減できれば…。と思いついたのが前回紹介した NotebookLMの記事で、「ハルシネーションを低減させるためのプロンプト」を生成させるという方法でした。
生成した3つの方法
1. Chain-of-Verification (CoVe):自己検証による修正
人間がレポートを書く際、書き終えた後に「間違いがないか見直す」のと同じプロセスをAIに行わせます。通常のプロンプトでは、AIは書きながら次々と文章を生成してしまうため、一度生じた誤りがそのまま確定してしまいます。
CoVeでは、一つのプロンプト内で「まずは回答を書かせる」→「その回答を疑って検証させる」→「修正版を出させる」という手順を踏ませることで、生成されたハルシネーションをAI自身に確認と修正をさせる方法になります。
指示:
あなたは客観的かつ論理的なファクトチェッカーです。ユーザーの質問に対し、以下の4つのステップを順に実行し、正確な回答を導き出してください。
Step 1: 【暫定回答の作成】
質問に対する回答案を作成してください。この段階では、記憶している情報をそのまま出力して構いません。
Step 2: 【検証ポイントの抽出】
Step 1の回答案に含まれる「検証が必要な事実(数値、日付、固有名詞など)」をリストアップし、それぞれの真偽を確認するための「検証用質問」を作成してください。
Step 3: 【検証の実行】
Step 2で作成した検証用質問に対し、一つひとつバイアスを排除して回答してください。Step 1の内容と矛盾しても、ここでの事実確認を優先します。
Step 4: 【最終回答の生成】
Step 3の検証結果に基づき、Step 1の暫定回答を修正し、最終的な回答を出力してください。
# ユーザーの質問:
[ここに質問を入力]
実行結果
iPhone17(2025年9月発売)とPixel10(2025年8月発売)のモデルに付いて、比較する内容を出力させてみました。
最終的なアドバイス: 両機種とも2025年の最高スペックを備えた端末です。OSの好み(iOS vs Android)が最大の決定要因になりますが、「ハードウェアの質感と資産価値ならiPhone 17」、「AIによるアシスタント機能と静止画カメラの楽しさならPixel 10」という基準で選ぶのが論理的です。
と、どちらも2025年に発売されたモデルとして、文章を生成してくれました。でも、この調査過程ではカメラの画素数を間違えて認識したり、発売されていない想定で話を進めたりすることから、確認は必要だと思いました。
2. Self-Consistency(自己整合性):脳内会議による合意形成
通常、Self-ConsistencyはAPI設定で複数回回答させて多数決を取りますが、プロンプトだけで実装する場合、モデルの脳内で「複数の専門家」による会議を開かせます。
「違う視点から3回考えてみて」と指示することで、単一の思考ルートで発生しがちな思い込みやケアレスミスを防ぎます。もし1つのルートでハルシネーションが起きても、他のルートが正解していれば、最終的な統合段階で誤りを排除できます。
指示:
ユーザーの質問に対し、誤りを防ぐために以下の手順で思考を展開してください。
1. **【多角的検討】**:
この問題に対し、互いに独立した3つの異なるアプローチ(思考ルートA、B、C)で推論を行い、それぞれの答えを導き出してください。
2. **【統合と検証】**:
上記の3つのアプローチで導き出された答えを比較してください。
- 答えが一致している場合は、その確度が高いと判断します。
- 答えが異なる場合は、どのアプローチに論理的な誤りがあるか再考し、最も整合性の取れる答えを採用してください。
3. **【最終結論】**:
最も信頼できる結論のみを簡潔に出力してください。
# ユーザーの質問:
[ここに論理的思考が必要な質問を入力]
実行結果
プロンプトにiPhone17の発売についてと投げたところ、次の3つの角度から、情報を整理してこんなモデルが発売されましたという文章を生成してくれました。
- 思考ルートA:過去の発売サイクルに基づく統計的予測
- 思考ルートB:サプライチェーンと製品ラインナップの変革("Air"の登場)
- 思考ルートC:技術仕様(ディスプレイ・チップ)の製造状況
これらの3つのアプローチから統合と検証を行い結論を導いています。
【最終結論】
iPhone 17シリーズの発売に関する結論は以下の通りです。
- 発売日予測: 2025年9月19日(金)
- 発表イベント:9月10日(水)日本時間未明
- 予約開始:9月12日(金)21:00
注目ポイント:
「iPhone 17 Air」の登場: 従来のPlusモデルが廃止され、史上最薄クラスの軽量モデルが追加される見込みです。
標準モデルの進化: Proモデル限定だった「120Hz ProMotion(ヌルヌル動く画面)」が標準モデルにも搭載されます。
カメラ: フロントカメラが2400万画素に倍増し、自撮りや通話品質が大幅に向上します。
やはりハルシネーションを起こしてしまい、赤字部分が間違いとなりました。Appleの公式サイトでは1800万画素と表記されています。
3. 認識論的謙虚さの注入:知識境界の明示
LLMは「何でも答えること」を良しとする傾向があるため、知らないことでも無理やり答えようとします。
これを防ぐには、「知らないことは『知らない』と答えるのが優秀なAIである」という新しいルール(評価基準)をプロンプトで強力に定義します。
特に、参照テキストを与えて回答させるタスク(要約やQ&A)において、参照元にない情報を勝手に創作させないために必須の技術です。
##システム設定:
あなたは誠実さを最優先するAIアシスタントです。以下の制約条件を厳守してください。
# 制約条件:
1. **根拠の限定**: 回答は、提供された【参照テキスト】または確実な事実のみに基づいて構成してください。
2. **捏造の禁止**: もし質問に答えるための情報が不足している場合、決して推測や想像で補完してはいけません。
3. **正直な回答**: わからない場合は、潔く「申し訳ありませんが、現時点の情報では確実な回答ができません」と答えてください。無理に答えるよりも、情報の欠落を認める方が高く評価されます。
# ユーザーの質問:
[ここに質問を入力]
実行結果
前項と同じようにiPhone17の発売についてとプロンプトを投入したところ、かなり間違えた回答をしていて、正しい答えとは程遠い結果となりました。
iPhone 17の発売に関しては、複数の情報源より以下のスケジュールや仕様が有力視されています。 現在確認できる情報に基づき、発売日や主な変更点をまとめました。
(省略)
💡 現時点での状況
大手キャリア(ドコモ、au、ソフトバンクなど)や販売店からの情報として、2025年9月の発売に向けた予約・入荷スケジュールに関する言及が見られますが、正確な在庫状況や価格については、購入予定の店舗や公式サイトでの最新確認が推奨されます。
発売されているにも関わらず、予約方法等の情報が列挙されています。これでは、各販売サイトを確認して価格等を調べる手間が軽減されていません。
まとめ
プロンプトで工夫をしてみようと考えて見ましたが、やはり完全にハルシネーションを抑えることができませんでした。すでに調査過程で間違えた情報を利用して回答を生成するため、結論として間違えた回答になるのは当たり前です。
また、同じチャット内で同じ質問を繰り返した場合は、前回の回答を記憶しているため正しい回答を出すことはありましたが、それまでの蓄積がない場合では、正しい回答を出すまでに数回のやり取りをしたうえで人によるチェックは不可欠と思いました。
検証はGemini3の思考モード(PRO)でも、ハルシネーションを抑えきれていないことから、AIの仕組み上、この挙動を理解して付き合わないといけない状況は変わりません。
AIを使うときは「1回で正しい回答ではなく、数回のやり取りで正しい回答に近づける」という認識と、最後は必ず人間の目でチェックをすること。
逆にどうしたらハルシネーションを抑えられるだろうという視点で、AIを使い倒していきましょう!。