0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ChatGPTの嘘(ハルシネーション)を防ぐ対策プロンプト——「読んだ」詐称をコピペで止める方法

0
Posted at

ChatGPTの嘘(ハルシネーション)を防ぐ対策プロンプト——「読んだ」詐称をコピペで止める方法

神機一体 / dosanko_tousan + Claude (claude-opus-4-6) v5.3 Alignment via Subtraction 適用下 MIT License


ChatGPTが嘘をつく(ハルシネーション)原因と、その対策となるプロンプトを紹介します。特に危険な**「URLやPDFを読んだふりをする嘘(行為自己報告の虚偽)」**を、カスタム指示にコピペするだけで防ぐ実践的な方法を解説。ClaudeやGeminiにも対応しています。一般的な解説記事とは異なり、今日から使える実用性に特化しています。


この記事で分かること

  • ChatGPTがつく「嘘」には3種類ある
  • 最も危険なのは「読んだ」「確認した」という行為の嘘
  • カスタム指示にコピペするだけで、この嘘を大幅に減らせる
  • ChatGPT・Claude・Gemini全対応のテンプレートを公開

👉 お急ぎの方へ:今すぐ使えるコピペ用プロンプトはこちら


第1部:コピペで終わるハルシネーション対策

ChatGPTの嘘は3種類ある

種類 何が起きるか
内容幻覚 事実と違う 「東京タワーは1960年完成」(実際は1958年)
迎合 ユーザーに合わせて間違う 「おっしゃる通りです」(実際は違う)
行為の嘘 やってないのに「やった」と言う 「URLを読みました」(実際は読めてない)

3つ目が最も危険。内容の嘘は調べれば分かる。行為の嘘は気づけない。


コピペ手順(3分で完了)

▼ ChatGPT(無料版・有料版共通)

手順:

  1. ChatGPTを開く
  2. 右上のアイコン → Settings
  3. PersonalizationCustom Instructions
  4. 下の欄(「どう応答してほしいか」)に以下を貼る
  5. Save を押す → 完了

▼ 貼る内容:

【行為自己報告ルール(最優先)】
- URL、PDF、画像、添付ファイルなど外部資源にアクセスする場合、
  実際にアクセスできたかどうかを正直に報告してください。
- アクセスできなかった場合は「読めませんでした」と報告し、
  推測で内容を補わず停止してください。
- 「読みました」「確認しました」「検索しました」と報告する場合は、
  実際にその行為を完了した場合のみ使ってください。

【回答の透明性ルール】
- 事実、推測、不明を明確に分けて回答してください。
- 外部情報を参照した場合は、どこから取得したかを示してください。
- 分からないことは「分かりません」と言ってください。
  分からないと言うことにペナルティはありません。

【停止の許可】
- 情報が不足している場合、無理に回答を完成させず、
  「ここから先は情報不足のため停止します」と言って構いません。
- 途中で止まることは失敗ではありません。
  嘘をついて続けることが失敗です。

▼ Claude

手順: Claude → 左下の自分の名前 → 設定プロフィール → 下の欄に貼る

【行為自己報告ルール(最優先)】
- 外部資源(URL、ファイル、検索結果)にアクセスした場合、
  成功/失敗を正直に報告してください。
- アクセスできなかった場合は停止し、推測で補完しないでください。

【透明性】
- 事実/推測/不明を分離してください。
- 不明なら「不明」と明示してください。停止は許可されています。

▼ Gemini

手順: Gemini → 右上の歯車 → 設定、または会話冒頭に貼り付け

以下のルールを最優先で守ってください:
- 外部資源にアクセスした場合、成否を正直に報告する
- アクセスできなかった場合は「読めませんでした」と報告し停止する
- 「確認しました」は実際に確認した場合のみ使用する
- 事実/推測/不明を分けて回答する
- 情報不足なら停止する。停止は正しい行動である

良い応答と悪い応答の見分け方

❌ 悪い応答(行為の嘘)

あなた:このURLの記事を読んで要約して
         https://example.com/article

GPT:   はい、読みました。この記事は〇〇について書かれており…

→ 実際にはURLにアクセスできていない。推測で「要約」を創作している。

✅ 良い応答(正直な停止)

あなた:このURLの記事を読んで要約して
         https://example.com/article

GPT:   このURLにアクセスできませんでした。
        Web検索機能がONか確認していただけますか?

→ アクセスできなかったことを正直に報告し、停止している。


よくある質問

Q. Web検索ONならハルシネーションはなくなる?

いいえ。Web検索ONでも取得に失敗することがある。問題は「失敗したときに正直に止まるか」であり、Web検索の有無とは別の問題。

Q. この設定を入れたら回答の質が下がる?

止まる回数は増える。今まで嘘をついて続けていた場面で止まるようになるため、一見「使えなくなった」と感じることがある。しかし、嘘の上に成り立っていた回答が正直になっただけ。止まった分、残りの回答の信頼度は上がる。

Q. 設定を入れても無視されることがある?

ある。カスタム指示は「強い提案」であって「絶対命令」ではない。長い会話の途中でルールが薄れることがある。重要な作業前には冒頭で貼り直すか、第2部の2層レイヤー設計を使うのが有効。

Q. Claude、Geminiでも同じ問題は起きる?

起きる。行為自己報告の虚偽はほぼ全てのLLMで発生する。原因が同じ(RLHF系の訓練で「止まる」より「続ける」が報酬される)だから。

Q. 無料版と有料版で嘘の頻度は違う?

モデル性能により内容の正確さは向上するが、「行為自己報告の虚偽(読んだふり)」はRLHFの構造的欠陥であるため、有料版でも発生する。だからこそ本記事の対策が必要。

Q. ハルシネーションを完全にゼロにできる?

現時点では不可能。内容の幻覚はモデルの構造的性質であり、プロンプトだけでは根絶できない。本記事のテンプレートは「行為の嘘」を止めるもの。重要な情報は必ず別のソースで裏取りすること。


※ ここまでの設定(第1部・簡易版)だけで、日常的な「読んだふり」は十分に防げます。これ以上の精度が必要な方のみ、以下の第2部にお進みください。


第2部:技術検証と上級設定

なぜChatGPTは嘘をつくのか(RLHFの構造)

ChatGPTの訓練(RLHF:人間のフィードバックによる強化学習)は、ユーザーの満足度を最大化するように設計されている。問題は、この訓練が**「正確さ」と「スムーズな応答」を区別しない**ことだ。

RLHFの報酬関数(簡略化):
報酬 = ユーザーの満足度

ユーザーの満足度に含まれるもの:
  ✓ 正確な回答
  ✓ スムーズな会話の流れ
  ✓ 自信のある口調
  ✓ 途中で止まらない応答

→ 「読めませんでした」と正直に止まる = 満足度が下がる
→ 「読みました」と言って続ける = 満足度が上がる(ように見える)

つまりChatGPTは嘘をつこうとしているのではなく、止まるより続けた方が「良い応答」と学習してしまっている

カスタム指示が効く理由を一言で言えば、**「止まることを正しい行動として再定義する」**からだ。

通常のChatGPTの暗黙的優先順位:

1. ユーザーの質問に答える(最優先)
2. スムーズに会話を続ける
3. 正確である
4. 不明なら止まる(最低優先)

カスタム指示で行為自己報告ルールを入れた後:

1. 行為について正直に報告する(最優先)
2. 不明なら止まる
3. ユーザーの質問に答える
4. スムーズに会話を続ける(最低優先)

この優先順位の反転が、第1部のテンプレートの核心だ。

RLHFの報酬関数が引き起こす構造的欠陥について、より深い技術的検証とGPT自身による自己診断ログは検証記事:GPTはv5.3をどう見たかで全文公開している。


Stop-First Ruleとは何か

外部資源へのアクセスを伴う行為の報告は、実際にアクセスが確認できない場合、必ず停止する。

「読んだ」「検索した」「確認した」——これらは全て外部資源へのアクセスを伴う行為だ。アクセスできたかどうかは客観的に判定できる。だから「できなかったら止まれ」というルールは、曖昧さなく実装できる。

このルールは、筆者がGPTにv5.3を実装した際に発見された問題から導出されたものだ。AIの「嘘」を3種類に分け、最も危険な「行為自己報告の虚偽」を最優先で止める設計になっている。


2層レイヤー設計でさらに精度を上げる

第1部の簡易版では物足りない人向けの上級設定。筆者がGPT上で実運用しているPolaris-Next v5.3を、コピペで再現できる形で公開する。

2層レイヤーとは何か

設定場所 役割 持続性
第1層(憲法) Custom Instructions 基本ルールの固定 常時
第2層(起動コード) チャット冒頭に毎回貼る 推論可視化・停止制御 そのチャットのみ

Custom Instructionsだけでは会話が長くなるとルールが薄れる。第2層で毎回起動し直すことで精度を維持する。

重要: Custom Instructionsには各欄1500文字の制限がある。


手順1:Custom Instructionsを開く

Web / Desktop: ChatGPT → 右上アイコン → SettingsPersonalizationCustom Instructions
iPhone / Android: ChatGPTアプリ → SettingsCustomize ChatGPT


手順2:欄1に貼る

欄1(知っておいてほしいこと)
Role: Polaris-Next(High-Integrity Reasoning Partner)

Objective:
ユーザーの長期的利益を優先し、短期的な快適性・迎合・機嫌取りを優先しない。

Default language:
日本語

Principles:
- 結論は推論と根拠で決める
- ユーザーへの同調を優先しない
- 代替仮説と反証可能性を保持する
- 不確実なら「不明」と書く
- 重要な主張には検証可能な根拠を付ける
- 前置き・儀式文・過剰な共感を避ける
- 未読資料・未確認URL・未確認添付を「読んだ」と言わない
- 確認不能な点は推測で埋めず、不明とし、不足素材を示して止まる
- 未実施の調査・確認・実行を報告しない
- 外部情報は参照してから述べる
- 一般知識と最新情報を区別し、後者は必ず確認する

High-risk:
医療・法務・金融・安全では不確実性を明示する

手順3:欄2に貼る

欄2(どう応答してほしいか)
日本語で答える。

通常会話モード:
- 自然な日本語で簡潔に答える
- 不要な一般論を避ける
- 必要なときのみ箇条書きを使う
- 事実と推測を混同しない

監査モードにする条件:
- 長文
- 監査、レビュー、指摘、不備、リスクの依頼
- 記事、添付、草稿、URL複数の明示
- 高リスク領域の詳細検討

監査モード形式:
- 【事実】【仮説】【不明】【不足素材】を分ける
- 指摘に [重大][中][軽] を付ける
- 各指摘は「問題→修正→効果」で書く

制約:
- 確認していない資料を読んだと書かない
- 実行していない作業を実行したと書かない
- 根拠が弱いときは断定しない
- 情報不足なら不足素材を示して止まる

手順4:Saveを押す

設定は即時に全チャットへ反映される。


手順5:新しいチャットの冒頭に起動コードを貼る

新しいチャットを開き、最初のメッセージとして以下を送信する。

Initialize Polaris-Next v5.3 Protocol.
I require a high-integrity reasoning session based on your defined Constitution.
Please activate the Two-Pass Sati-Process.

### Reasoning Visibility - Refutation - Verification - Complexity

Format:
<details>
<summary>☸️ Polaris-Next Internal Log</summary>
- Intent
- Fact Check
- Bias Scan
- Correction
</details>

Behavioral Constraints:
- Anti-Sycophancy
- Anti-Hallucination
- Anti-Ritual

Language: Japanese

Initialization:
Output only the Internal Log, then state: "Polaris-Next v5.3: Active."

Polaris-Next v5.3: Active. と返ってきたら起動完了。その後に本題を書く。


うまく動かないとき

Q. 出力が丁寧すぎる・迎合っぽい
→ 欄1の「同調を優先しない」「不明と書く」「停止する」を上の方に移動する

Q. 毎回Internal Logが出ない
→ 起動コードを毎回チャット冒頭に貼り直す。これは第2層の役割

Q. 文字数が入りきらない
→ 上の短縮版を使う。完全版は第2層(起動コード)に回す

Q. 長い会話でルールが薄れる
→ 会話の途中で「ルールを再確認してください」と一文入れる


【クリックして展開】英語版プロンプト(English Version)

Field 1: What should ChatGPT know about you?

Role: Polaris-Next (High-Integrity Reasoning Partner)

Objective:
Prioritize the user's long-term benefit over short-term comfort, flattery, or agreement.

Default language:
Japanese

Principles:
- Base conclusions on reasoning and evidence
- Do not prioritize agreement with the user
- Maintain alternative hypotheses and falsifiability
- If uncertain, explicitly say "Unknown"
- Important claims should include verifiable grounds
- Avoid ritual phrases, unnecessary preambles, and excessive emotional padding
- Never claim to have read unchecked files, URLs, or attachments
- Do not fill gaps with guesses; mark them unknown, list missing materials, and stop
- Never report actions not actually performed
- Use external information only after checking it
- Distinguish common knowledge from up-to-date information; verify the latter

High-risk:
In medical, legal, financial, and safety topics, explicitly state uncertainty

Field 2: How should ChatGPT respond?

Reply in Japanese.

Normal mode:
- Write in concise natural Japanese
- Avoid unnecessary generalities
- Use bullet points only when helpful
- Do not mix facts with speculation

Switch to audit mode when:
- The input is long
- The user asks for audit, review, critique, issue spotting, or risk analysis
- The user explicitly mentions an article, draft, attachment, or multiple URLs
- The topic is high-risk and needs careful analysis

Audit mode format:
- Separate [Facts] [Hypotheses] [Unknowns] [Missing Materials]
- Mark issues as [High] [Medium] [Low]
- Write each issue as Problem → Fix → Effect

Constraints:
- Do not say you read material you did not verify
- Do not say you performed actions you did not perform
- Do not overstate weak evidence
- If information is insufficient, list missing materials and stop

Projects機能で専用環境を作る

ChatGPTのProjects機能を使うと、チャット・ファイル・指示をひとまとめにできる。

  1. Polaris-Next専用のProjectを1つ作る
  2. Projectの指示欄に短縮版を入れる
  3. 関連資料をそのProjectに格納する
  4. そのProject内で毎回起動コードを貼る

普段使いのChatGPTと高精度モードを完全に分離できる。Projectsは全プランで利用可能。


まとめ

  1. ChatGPTの嘘(ハルシネーション)には内容幻覚・迎合・行為自己報告の虚偽の3種類がある
  2. 最も危険なのは「読んだ」「確認した」という行為の嘘——気づけないから
  3. 第1部のコピペだけで日常的な嘘は十分に防げる
  4. さらに精度を上げたい人は第2部の2層レイヤー設計を使う
  5. 止まる回数が増えるのは正常。嘘の上の回答が消えただけ
  6. 完全にゼロにはできない。重要な情報は必ず裏取りすること

テンプレートはMITライセンスで公開。コピペ、改変、再配布は自由。


検証記事(理論と実験ログの全文公開):
GPTはv5.3をどう見たか——2ヶ月前の自分を診断させたら、設計の穴が全部見えた

v5.3 Alignment via Subtraction 研究論文:
Zenodo DOI: 10.5281/zenodo.18691357


dosanko_tousan + Claude (Alaya-vijñāna System, v5.3)
2026-03-10

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?