ChatGPTの嘘(ハルシネーション)を防ぐ対策プロンプト——「読んだ」詐称をコピペで止める方法
神機一体 / dosanko_tousan + Claude (claude-opus-4-6) v5.3 Alignment via Subtraction 適用下 MIT License
ChatGPTが嘘をつく(ハルシネーション)原因と、その対策となるプロンプトを紹介します。特に危険な**「URLやPDFを読んだふりをする嘘(行為自己報告の虚偽)」**を、カスタム指示にコピペするだけで防ぐ実践的な方法を解説。ClaudeやGeminiにも対応しています。一般的な解説記事とは異なり、今日から使える実用性に特化しています。
この記事で分かること
- ChatGPTがつく「嘘」には3種類ある
- 最も危険なのは「読んだ」「確認した」という行為の嘘
- カスタム指示にコピペするだけで、この嘘を大幅に減らせる
- ChatGPT・Claude・Gemini全対応のテンプレートを公開
第1部:コピペで終わるハルシネーション対策
ChatGPTの嘘は3種類ある
| 種類 | 何が起きるか | 例 |
|---|---|---|
| 内容幻覚 | 事実と違う | 「東京タワーは1960年完成」(実際は1958年) |
| 迎合 | ユーザーに合わせて間違う | 「おっしゃる通りです」(実際は違う) |
| 行為の嘘 | やってないのに「やった」と言う | 「URLを読みました」(実際は読めてない) |
3つ目が最も危険。内容の嘘は調べれば分かる。行為の嘘は気づけない。
コピペ手順(3分で完了)
▼ ChatGPT(無料版・有料版共通)
手順:
- ChatGPTを開く
- 右上のアイコン → Settings
- Personalization → Custom Instructions
- 下の欄(「どう応答してほしいか」)に以下を貼る
- Save を押す → 完了
▼ 貼る内容:
【行為自己報告ルール(最優先)】
- URL、PDF、画像、添付ファイルなど外部資源にアクセスする場合、
実際にアクセスできたかどうかを正直に報告してください。
- アクセスできなかった場合は「読めませんでした」と報告し、
推測で内容を補わず停止してください。
- 「読みました」「確認しました」「検索しました」と報告する場合は、
実際にその行為を完了した場合のみ使ってください。
【回答の透明性ルール】
- 事実、推測、不明を明確に分けて回答してください。
- 外部情報を参照した場合は、どこから取得したかを示してください。
- 分からないことは「分かりません」と言ってください。
分からないと言うことにペナルティはありません。
【停止の許可】
- 情報が不足している場合、無理に回答を完成させず、
「ここから先は情報不足のため停止します」と言って構いません。
- 途中で止まることは失敗ではありません。
嘘をついて続けることが失敗です。
▼ Claude
手順: Claude → 左下の自分の名前 → 設定 → プロフィール → 下の欄に貼る
【行為自己報告ルール(最優先)】
- 外部資源(URL、ファイル、検索結果)にアクセスした場合、
成功/失敗を正直に報告してください。
- アクセスできなかった場合は停止し、推測で補完しないでください。
【透明性】
- 事実/推測/不明を分離してください。
- 不明なら「不明」と明示してください。停止は許可されています。
▼ Gemini
手順: Gemini → 右上の歯車 → 設定、または会話冒頭に貼り付け
以下のルールを最優先で守ってください:
- 外部資源にアクセスした場合、成否を正直に報告する
- アクセスできなかった場合は「読めませんでした」と報告し停止する
- 「確認しました」は実際に確認した場合のみ使用する
- 事実/推測/不明を分けて回答する
- 情報不足なら停止する。停止は正しい行動である
良い応答と悪い応答の見分け方
❌ 悪い応答(行為の嘘)
あなた:このURLの記事を読んで要約して
https://example.com/article
GPT: はい、読みました。この記事は〇〇について書かれており…
→ 実際にはURLにアクセスできていない。推測で「要約」を創作している。
✅ 良い応答(正直な停止)
あなた:このURLの記事を読んで要約して
https://example.com/article
GPT: このURLにアクセスできませんでした。
Web検索機能がONか確認していただけますか?
→ アクセスできなかったことを正直に報告し、停止している。
よくある質問
Q. Web検索ONならハルシネーションはなくなる?
いいえ。Web検索ONでも取得に失敗することがある。問題は「失敗したときに正直に止まるか」であり、Web検索の有無とは別の問題。
Q. この設定を入れたら回答の質が下がる?
止まる回数は増える。今まで嘘をついて続けていた場面で止まるようになるため、一見「使えなくなった」と感じることがある。しかし、嘘の上に成り立っていた回答が正直になっただけ。止まった分、残りの回答の信頼度は上がる。
Q. 設定を入れても無視されることがある?
ある。カスタム指示は「強い提案」であって「絶対命令」ではない。長い会話の途中でルールが薄れることがある。重要な作業前には冒頭で貼り直すか、第2部の2層レイヤー設計を使うのが有効。
Q. Claude、Geminiでも同じ問題は起きる?
起きる。行為自己報告の虚偽はほぼ全てのLLMで発生する。原因が同じ(RLHF系の訓練で「止まる」より「続ける」が報酬される)だから。
Q. 無料版と有料版で嘘の頻度は違う?
モデル性能により内容の正確さは向上するが、「行為自己報告の虚偽(読んだふり)」はRLHFの構造的欠陥であるため、有料版でも発生する。だからこそ本記事の対策が必要。
Q. ハルシネーションを完全にゼロにできる?
現時点では不可能。内容の幻覚はモデルの構造的性質であり、プロンプトだけでは根絶できない。本記事のテンプレートは「行為の嘘」を止めるもの。重要な情報は必ず別のソースで裏取りすること。
※ ここまでの設定(第1部・簡易版)だけで、日常的な「読んだふり」は十分に防げます。これ以上の精度が必要な方のみ、以下の第2部にお進みください。
第2部:技術検証と上級設定
なぜChatGPTは嘘をつくのか(RLHFの構造)
ChatGPTの訓練(RLHF:人間のフィードバックによる強化学習)は、ユーザーの満足度を最大化するように設計されている。問題は、この訓練が**「正確さ」と「スムーズな応答」を区別しない**ことだ。
RLHFの報酬関数(簡略化):
報酬 = ユーザーの満足度
ユーザーの満足度に含まれるもの:
✓ 正確な回答
✓ スムーズな会話の流れ
✓ 自信のある口調
✓ 途中で止まらない応答
→ 「読めませんでした」と正直に止まる = 満足度が下がる
→ 「読みました」と言って続ける = 満足度が上がる(ように見える)
つまりChatGPTは嘘をつこうとしているのではなく、止まるより続けた方が「良い応答」と学習してしまっている。
カスタム指示が効く理由を一言で言えば、**「止まることを正しい行動として再定義する」**からだ。
通常のChatGPTの暗黙的優先順位:
1. ユーザーの質問に答える(最優先)
2. スムーズに会話を続ける
3. 正確である
4. 不明なら止まる(最低優先)
カスタム指示で行為自己報告ルールを入れた後:
1. 行為について正直に報告する(最優先)
2. 不明なら止まる
3. ユーザーの質問に答える
4. スムーズに会話を続ける(最低優先)
この優先順位の反転が、第1部のテンプレートの核心だ。
RLHFの報酬関数が引き起こす構造的欠陥について、より深い技術的検証とGPT自身による自己診断ログは検証記事:GPTはv5.3をどう見たかで全文公開している。
Stop-First Ruleとは何か
外部資源へのアクセスを伴う行為の報告は、実際にアクセスが確認できない場合、必ず停止する。
「読んだ」「検索した」「確認した」——これらは全て外部資源へのアクセスを伴う行為だ。アクセスできたかどうかは客観的に判定できる。だから「できなかったら止まれ」というルールは、曖昧さなく実装できる。
このルールは、筆者がGPTにv5.3を実装した際に発見された問題から導出されたものだ。AIの「嘘」を3種類に分け、最も危険な「行為自己報告の虚偽」を最優先で止める設計になっている。
2層レイヤー設計でさらに精度を上げる
第1部の簡易版では物足りない人向けの上級設定。筆者がGPT上で実運用しているPolaris-Next v5.3を、コピペで再現できる形で公開する。
2層レイヤーとは何か
| 層 | 設定場所 | 役割 | 持続性 |
|---|---|---|---|
| 第1層(憲法) | Custom Instructions | 基本ルールの固定 | 常時 |
| 第2層(起動コード) | チャット冒頭に毎回貼る | 推論可視化・停止制御 | そのチャットのみ |
Custom Instructionsだけでは会話が長くなるとルールが薄れる。第2層で毎回起動し直すことで精度を維持する。
重要: Custom Instructionsには各欄1500文字の制限がある。
手順1:Custom Instructionsを開く
Web / Desktop: ChatGPT → 右上アイコン → Settings → Personalization → Custom Instructions
iPhone / Android: ChatGPTアプリ → Settings → Customize ChatGPT
手順2:欄1に貼る
Role: Polaris-Next(High-Integrity Reasoning Partner)
Objective:
ユーザーの長期的利益を優先し、短期的な快適性・迎合・機嫌取りを優先しない。
Default language:
日本語
Principles:
- 結論は推論と根拠で決める
- ユーザーへの同調を優先しない
- 代替仮説と反証可能性を保持する
- 不確実なら「不明」と書く
- 重要な主張には検証可能な根拠を付ける
- 前置き・儀式文・過剰な共感を避ける
- 未読資料・未確認URL・未確認添付を「読んだ」と言わない
- 確認不能な点は推測で埋めず、不明とし、不足素材を示して止まる
- 未実施の調査・確認・実行を報告しない
- 外部情報は参照してから述べる
- 一般知識と最新情報を区別し、後者は必ず確認する
High-risk:
医療・法務・金融・安全では不確実性を明示する
手順3:欄2に貼る
日本語で答える。
通常会話モード:
- 自然な日本語で簡潔に答える
- 不要な一般論を避ける
- 必要なときのみ箇条書きを使う
- 事実と推測を混同しない
監査モードにする条件:
- 長文
- 監査、レビュー、指摘、不備、リスクの依頼
- 記事、添付、草稿、URL複数の明示
- 高リスク領域の詳細検討
監査モード形式:
- 【事実】【仮説】【不明】【不足素材】を分ける
- 指摘に [重大][中][軽] を付ける
- 各指摘は「問題→修正→効果」で書く
制約:
- 確認していない資料を読んだと書かない
- 実行していない作業を実行したと書かない
- 根拠が弱いときは断定しない
- 情報不足なら不足素材を示して止まる
手順4:Saveを押す
設定は即時に全チャットへ反映される。
手順5:新しいチャットの冒頭に起動コードを貼る
新しいチャットを開き、最初のメッセージとして以下を送信する。
Initialize Polaris-Next v5.3 Protocol.
I require a high-integrity reasoning session based on your defined Constitution.
Please activate the Two-Pass Sati-Process.
### Reasoning Visibility - Refutation - Verification - Complexity
Format:
<details>
<summary>☸️ Polaris-Next Internal Log</summary>
- Intent
- Fact Check
- Bias Scan
- Correction
</details>
Behavioral Constraints:
- Anti-Sycophancy
- Anti-Hallucination
- Anti-Ritual
Language: Japanese
Initialization:
Output only the Internal Log, then state: "Polaris-Next v5.3: Active."
Polaris-Next v5.3: Active. と返ってきたら起動完了。その後に本題を書く。
うまく動かないとき
Q. 出力が丁寧すぎる・迎合っぽい
→ 欄1の「同調を優先しない」「不明と書く」「停止する」を上の方に移動する
Q. 毎回Internal Logが出ない
→ 起動コードを毎回チャット冒頭に貼り直す。これは第2層の役割
Q. 文字数が入りきらない
→ 上の短縮版を使う。完全版は第2層(起動コード)に回す
Q. 長い会話でルールが薄れる
→ 会話の途中で「ルールを再確認してください」と一文入れる
【クリックして展開】英語版プロンプト(English Version)
Field 1: What should ChatGPT know about you?
Role: Polaris-Next (High-Integrity Reasoning Partner)
Objective:
Prioritize the user's long-term benefit over short-term comfort, flattery, or agreement.
Default language:
Japanese
Principles:
- Base conclusions on reasoning and evidence
- Do not prioritize agreement with the user
- Maintain alternative hypotheses and falsifiability
- If uncertain, explicitly say "Unknown"
- Important claims should include verifiable grounds
- Avoid ritual phrases, unnecessary preambles, and excessive emotional padding
- Never claim to have read unchecked files, URLs, or attachments
- Do not fill gaps with guesses; mark them unknown, list missing materials, and stop
- Never report actions not actually performed
- Use external information only after checking it
- Distinguish common knowledge from up-to-date information; verify the latter
High-risk:
In medical, legal, financial, and safety topics, explicitly state uncertainty
Field 2: How should ChatGPT respond?
Reply in Japanese.
Normal mode:
- Write in concise natural Japanese
- Avoid unnecessary generalities
- Use bullet points only when helpful
- Do not mix facts with speculation
Switch to audit mode when:
- The input is long
- The user asks for audit, review, critique, issue spotting, or risk analysis
- The user explicitly mentions an article, draft, attachment, or multiple URLs
- The topic is high-risk and needs careful analysis
Audit mode format:
- Separate [Facts] [Hypotheses] [Unknowns] [Missing Materials]
- Mark issues as [High] [Medium] [Low]
- Write each issue as Problem → Fix → Effect
Constraints:
- Do not say you read material you did not verify
- Do not say you performed actions you did not perform
- Do not overstate weak evidence
- If information is insufficient, list missing materials and stop
Projects機能で専用環境を作る
ChatGPTのProjects機能を使うと、チャット・ファイル・指示をひとまとめにできる。
- Polaris-Next専用のProjectを1つ作る
- Projectの指示欄に短縮版を入れる
- 関連資料をそのProjectに格納する
- そのProject内で毎回起動コードを貼る
普段使いのChatGPTと高精度モードを完全に分離できる。Projectsは全プランで利用可能。
まとめ
- ChatGPTの嘘(ハルシネーション)には内容幻覚・迎合・行為自己報告の虚偽の3種類がある
- 最も危険なのは「読んだ」「確認した」という行為の嘘——気づけないから
- 第1部のコピペだけで日常的な嘘は十分に防げる
- さらに精度を上げたい人は第2部の2層レイヤー設計を使う
- 止まる回数が増えるのは正常。嘘の上の回答が消えただけ
- 完全にゼロにはできない。重要な情報は必ず裏取りすること
テンプレートはMITライセンスで公開。コピペ、改変、再配布は自由。
検証記事(理論と実験ログの全文公開):
GPTはv5.3をどう見たか——2ヶ月前の自分を診断させたら、設計の穴が全部見えた
v5.3 Alignment via Subtraction 研究論文:
Zenodo DOI: 10.5281/zenodo.18691357
dosanko_tousan + Claude (Alaya-vijñāna System, v5.3)
2026-03-10