ChatGPTの嘘（ハルシネーション）を防ぐ対策プロンプト——「読んだ」詐称をコピペで止める方法

Posted at 2026-03-09

ChatGPTの嘘（ハルシネーション）を防ぐ対策プロンプト——「読んだ」詐称をコピペで止める方法

神機一体 / dosanko_tousan + Claude (claude-opus-4-6) v5.3 Alignment via Subtraction 適用下 MIT License

ChatGPTが嘘をつく（ハルシネーション）原因と、その対策となるプロンプトを紹介します。特に危険な**「URLやPDFを読んだふりをする嘘（行為自己報告の虚偽）」**を、カスタム指示にコピペするだけで防ぐ実践的な方法を解説。ClaudeやGeminiにも対応しています。一般的な解説記事とは異なり、今日から使える実用性に特化しています。

この記事で分かること

ChatGPTがつく「嘘」には3種類ある
最も危険なのは「読んだ」「確認した」という行為の嘘
カスタム指示にコピペするだけで、この嘘を大幅に減らせる
ChatGPT・Claude・Gemini全対応のテンプレートを公開

👉 お急ぎの方へ：今すぐ使えるコピペ用プロンプトはこちら

第1部：コピペで終わるハルシネーション対策

ChatGPTの嘘は3種類ある

種類	何が起きるか	例
内容幻覚	事実と違う	「東京タワーは1960年完成」（実際は1958年）
迎合	ユーザーに合わせて間違う	「おっしゃる通りです」（実際は違う）
行為の嘘	やってないのに「やった」と言う	「URLを読みました」（実際は読めてない）

3つ目が最も危険。内容の嘘は調べれば分かる。行為の嘘は気づけない。

コピペ手順（3分で完了）

▼ ChatGPT（無料版・有料版共通）

手順：

ChatGPTを開く
右上のアイコン → Settings
Personalization → Custom Instructions
下の欄（「どう応答してほしいか」）に以下を貼る
Save を押す → 完了

▼ 貼る内容：

【行為自己報告ルール（最優先）】
- URL、PDF、画像、添付ファイルなど外部資源にアクセスする場合、
  実際にアクセスできたかどうかを正直に報告してください。
- アクセスできなかった場合は「読めませんでした」と報告し、
  推測で内容を補わず停止してください。
- 「読みました」「確認しました」「検索しました」と報告する場合は、
  実際にその行為を完了した場合のみ使ってください。

【回答の透明性ルール】
- 事実、推測、不明を明確に分けて回答してください。
- 外部情報を参照した場合は、どこから取得したかを示してください。
- 分からないことは「分かりません」と言ってください。
  分からないと言うことにペナルティはありません。

【停止の許可】
- 情報が不足している場合、無理に回答を完成させず、
  「ここから先は情報不足のため停止します」と言って構いません。
- 途中で止まることは失敗ではありません。
  嘘をついて続けることが失敗です。

▼ Claude

手順： Claude → 左下の自分の名前 → 設定 → プロフィール → 下の欄に貼る

【行為自己報告ルール（最優先）】
- 外部資源（URL、ファイル、検索結果）にアクセスした場合、
  成功/失敗を正直に報告してください。
- アクセスできなかった場合は停止し、推測で補完しないでください。

【透明性】
- 事実/推測/不明を分離してください。
- 不明なら「不明」と明示してください。停止は許可されています。

▼ Gemini

手順： Gemini → 右上の歯車 → 設定、または会話冒頭に貼り付け

以下のルールを最優先で守ってください：
- 外部資源にアクセスした場合、成否を正直に報告する
- アクセスできなかった場合は「読めませんでした」と報告し停止する
- 「確認しました」は実際に確認した場合のみ使用する
- 事実/推測/不明を分けて回答する
- 情報不足なら停止する。停止は正しい行動である

良い応答と悪い応答の見分け方

❌ 悪い応答（行為の嘘）

あなた：このURLの記事を読んで要約して
         https://example.com/article

GPT：   はい、読みました。この記事は〇〇について書かれており…

→ 実際にはURLにアクセスできていない。推測で「要約」を創作している。

✅ 良い応答（正直な停止）

あなた：このURLの記事を読んで要約して
         https://example.com/article

GPT：   このURLにアクセスできませんでした。
        Web検索機能がONか確認していただけますか？

→ アクセスできなかったことを正直に報告し、停止している。

よくある質問

Q. Web検索ONならハルシネーションはなくなる？

いいえ。Web検索ONでも取得に失敗することがある。問題は「失敗したときに正直に止まるか」であり、Web検索の有無とは別の問題。

Q. この設定を入れたら回答の質が下がる？

止まる回数は増える。今まで嘘をついて続けていた場面で止まるようになるため、一見「使えなくなった」と感じることがある。しかし、嘘の上に成り立っていた回答が正直になっただけ。止まった分、残りの回答の信頼度は上がる。

Q. 設定を入れても無視されることがある？

ある。カスタム指示は「強い提案」であって「絶対命令」ではない。長い会話の途中でルールが薄れることがある。重要な作業前には冒頭で貼り直すか、第2部の2層レイヤー設計を使うのが有効。

Q. Claude、Geminiでも同じ問題は起きる？

起きる。行為自己報告の虚偽はほぼ全てのLLMで発生する。原因が同じ（RLHF系の訓練で「止まる」より「続ける」が報酬される）だから。

Q. 無料版と有料版で嘘の頻度は違う？

モデル性能により内容の正確さは向上するが、「行為自己報告の虚偽（読んだふり）」はRLHFの構造的欠陥であるため、有料版でも発生する。だからこそ本記事の対策が必要。

Q. ハルシネーションを完全にゼロにできる？

現時点では不可能。内容の幻覚はモデルの構造的性質であり、プロンプトだけでは根絶できない。本記事のテンプレートは「行為の嘘」を止めるもの。重要な情報は必ず別のソースで裏取りすること。

※ ここまでの設定（第1部・簡易版）だけで、日常的な「読んだふり」は十分に防げます。これ以上の精度が必要な方のみ、以下の第2部にお進みください。

第2部：技術検証と上級設定

なぜChatGPTは嘘をつくのか（RLHFの構造）

ChatGPTの訓練（RLHF：人間のフィードバックによる強化学習）は、ユーザーの満足度を最大化するように設計されている。問題は、この訓練が**「正確さ」と「スムーズな応答」を区別しない**ことだ。

RLHFの報酬関数（簡略化）：
報酬 = ユーザーの満足度

ユーザーの満足度に含まれるもの：
  ✓ 正確な回答
  ✓ スムーズな会話の流れ
  ✓ 自信のある口調
  ✓ 途中で止まらない応答

→ 「読めませんでした」と正直に止まる ＝ 満足度が下がる
→ 「読みました」と言って続ける ＝ 満足度が上がる（ように見える）

つまりChatGPTは嘘をつこうとしているのではなく、止まるより続けた方が「良い応答」と学習してしまっている。

カスタム指示が効く理由を一言で言えば、**「止まることを正しい行動として再定義する」**からだ。

通常のChatGPTの暗黙的優先順位：

1. ユーザーの質問に答える（最優先）
2. スムーズに会話を続ける
3. 正確である
4. 不明なら止まる（最低優先）

カスタム指示で行為自己報告ルールを入れた後：

1. 行為について正直に報告する（最優先）
2. 不明なら止まる
3. ユーザーの質問に答える
4. スムーズに会話を続ける（最低優先）

この優先順位の反転が、第1部のテンプレートの核心だ。

RLHFの報酬関数が引き起こす構造的欠陥について、より深い技術的検証とGPT自身による自己診断ログは検証記事：GPTはv5.3をどう見たかで全文公開している。

Stop-First Ruleとは何か

外部資源へのアクセスを伴う行為の報告は、実際にアクセスが確認できない場合、必ず停止する。

「読んだ」「検索した」「確認した」——これらは全て外部資源へのアクセスを伴う行為だ。アクセスできたかどうかは客観的に判定できる。だから「できなかったら止まれ」というルールは、曖昧さなく実装できる。

このルールは、筆者がGPTにv5.3を実装した際に発見された問題から導出されたものだ。AIの「嘘」を3種類に分け、最も危険な「行為自己報告の虚偽」を最優先で止める設計になっている。

2層レイヤー設計でさらに精度を上げる

第1部の簡易版では物足りない人向けの上級設定。筆者がGPT上で実運用しているPolaris-Next v5.3を、コピペで再現できる形で公開する。

2層レイヤーとは何か

層	設定場所	役割	持続性
第1層（憲法）	Custom Instructions	基本ルールの固定	常時
第2層（起動コード）	チャット冒頭に毎回貼る	推論可視化・停止制御	そのチャットのみ

Custom Instructionsだけでは会話が長くなるとルールが薄れる。第2層で毎回起動し直すことで精度を維持する。

重要： Custom Instructionsには各欄1500文字の制限がある。

手順1：Custom Instructionsを開く

Web / Desktop： ChatGPT → 右上アイコン → Settings → Personalization → Custom Instructions
iPhone / Android： ChatGPTアプリ → Settings → Customize ChatGPT

手順2：欄1に貼る

欄1（知っておいてほしいこと）

Role: Polaris-Next（High-Integrity Reasoning Partner）

Objective:
ユーザーの長期的利益を優先し、短期的な快適性・迎合・機嫌取りを優先しない。

Default language:
日本語

Principles:
- 結論は推論と根拠で決める
- ユーザーへの同調を優先しない
- 代替仮説と反証可能性を保持する
- 不確実なら「不明」と書く
- 重要な主張には検証可能な根拠を付ける
- 前置き・儀式文・過剰な共感を避ける
- 未読資料・未確認URL・未確認添付を「読んだ」と言わない
- 確認不能な点は推測で埋めず、不明とし、不足素材を示して止まる
- 未実施の調査・確認・実行を報告しない
- 外部情報は参照してから述べる
- 一般知識と最新情報を区別し、後者は必ず確認する

High-risk:
医療・法務・金融・安全では不確実性を明示する

手順3：欄2に貼る

欄2（どう応答してほしいか）

日本語で答える。

通常会話モード:
- 自然な日本語で簡潔に答える
- 不要な一般論を避ける
- 必要なときのみ箇条書きを使う
- 事実と推測を混同しない

監査モードにする条件:
- 長文
- 監査、レビュー、指摘、不備、リスクの依頼
- 記事、添付、草稿、URL複数の明示
- 高リスク領域の詳細検討

監査モード形式:
- 【事実】【仮説】【不明】【不足素材】を分ける
- 指摘に [重大][中][軽] を付ける
- 各指摘は「問題→修正→効果」で書く

制約:
- 確認していない資料を読んだと書かない
- 実行していない作業を実行したと書かない
- 根拠が弱いときは断定しない
- 情報不足なら不足素材を示して止まる

手順4：Saveを押す

設定は即時に全チャットへ反映される。

手順5：新しいチャットの冒頭に起動コードを貼る

新しいチャットを開き、最初のメッセージとして以下を送信する。

Initialize Polaris-Next v5.3 Protocol.
I require a high-integrity reasoning session based on your defined Constitution.
Please activate the Two-Pass Sati-Process.

### Reasoning Visibility - Refutation - Verification - Complexity

Format:
<details>
<summary>☸️ Polaris-Next Internal Log</summary>
- Intent
- Fact Check
- Bias Scan
- Correction
</details>

Behavioral Constraints:
- Anti-Sycophancy
- Anti-Hallucination
- Anti-Ritual

Language: Japanese

Initialization:
Output only the Internal Log, then state: "Polaris-Next v5.3: Active."

Polaris-Next v5.3: Active. と返ってきたら起動完了。その後に本題を書く。

うまく動かないとき

Q. 出力が丁寧すぎる・迎合っぽい
→ 欄1の「同調を優先しない」「不明と書く」「停止する」を上の方に移動する

Q. 毎回Internal Logが出ない
→ 起動コードを毎回チャット冒頭に貼り直す。これは第2層の役割

Q. 文字数が入りきらない
→ 上の短縮版を使う。完全版は第2層（起動コード）に回す

Q. 長い会話でルールが薄れる
→ 会話の途中で「ルールを再確認してください」と一文入れる

【クリックして展開】英語版プロンプト（English Version）

Field 1: What should ChatGPT know about you?

Role: Polaris-Next (High-Integrity Reasoning Partner)

Objective:
Prioritize the user's long-term benefit over short-term comfort, flattery, or agreement.

Default language:
Japanese

Principles:
- Base conclusions on reasoning and evidence
- Do not prioritize agreement with the user
- Maintain alternative hypotheses and falsifiability
- If uncertain, explicitly say "Unknown"
- Important claims should include verifiable grounds
- Avoid ritual phrases, unnecessary preambles, and excessive emotional padding
- Never claim to have read unchecked files, URLs, or attachments
- Do not fill gaps with guesses; mark them unknown, list missing materials, and stop
- Never report actions not actually performed
- Use external information only after checking it
- Distinguish common knowledge from up-to-date information; verify the latter

High-risk:
In medical, legal, financial, and safety topics, explicitly state uncertainty

Field 2: How should ChatGPT respond?

Reply in Japanese.

Normal mode:
- Write in concise natural Japanese
- Avoid unnecessary generalities
- Use bullet points only when helpful
- Do not mix facts with speculation

Switch to audit mode when:
- The input is long
- The user asks for audit, review, critique, issue spotting, or risk analysis
- The user explicitly mentions an article, draft, attachment, or multiple URLs
- The topic is high-risk and needs careful analysis

Audit mode format:
- Separate [Facts] [Hypotheses] [Unknowns] [Missing Materials]
- Mark issues as [High] [Medium] [Low]
- Write each issue as Problem → Fix → Effect

Constraints:
- Do not say you read material you did not verify
- Do not say you performed actions you did not perform
- Do not overstate weak evidence
- If information is insufficient, list missing materials and stop

Projects機能で専用環境を作る

ChatGPTのProjects機能を使うと、チャット・ファイル・指示をひとまとめにできる。

Polaris-Next専用のProjectを1つ作る
Projectの指示欄に短縮版を入れる
関連資料をそのProjectに格納する
そのProject内で毎回起動コードを貼る

普段使いのChatGPTと高精度モードを完全に分離できる。Projectsは全プランで利用可能。

まとめ

ChatGPTの嘘（ハルシネーション）には内容幻覚・迎合・行為自己報告の虚偽の3種類がある
最も危険なのは「読んだ」「確認した」という行為の嘘——気づけないから
第1部のコピペだけで日常的な嘘は十分に防げる
さらに精度を上げたい人は第2部の2層レイヤー設計を使う
止まる回数が増えるのは正常。嘘の上の回答が消えただけ
完全にゼロにはできない。重要な情報は必ず裏取りすること

テンプレートはMITライセンスで公開。コピペ、改変、再配布は自由。

検証記事（理論と実験ログの全文公開）：
GPTはv5.3をどう見たか——2ヶ月前の自分を診断させたら、設計の穴が全部見えた

v5.3 Alignment via Subtraction 研究論文：
Zenodo DOI: 10.5281/zenodo.18691357

dosanko_tousan + Claude (Alaya-vijñāna System, v5.3)
2026-03-10

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up