プロンプトの「読み込み忘れ」をテキストだけで防ぐ設計手法:【論文紹介】GIP
はじめに
LLMに長い指示を与えてセッションが続くにつれて、最初に設定したペルソナやバイアス制御のルールが徐々に守られなくなる――この現象は「ドリフト」「アテンション減衰」と呼ばれ知られている。
この問題への既存対処は、大きく次の3方向に分かれていた。
- 事後的な自己修正:生成後に誤りを探して修正する
- 指示階層の学習:システム指示を優先するようファインチューニングする
- Constitutional AI:原則セットに基づき出力を批評・修正する
これらに対して、本記事で紹介する論文は 第四の方向 を提案する。回答生成の「直前」に、設定された前提条件が機能しているかをモデル自身に言語的に自己照合させる という設計だ。論文ではこの機構を Governance Interlock Protocol(G.I.P.) と命名し、定式化している。
論文:
事前確認への転換
LLMはトークン生成の確率的システムであり、プロンプトで完全制御することはできない。ただし制約遵守の確率を統計的に改善することは設計論として可能だ。
問題の核心は「出力の良し悪し」ではなく、指定した制約条件が現時点で有効であることをモデル自身が忘れていく という点にある。長期セッションでアテンションが減衰し、初期設定への参照が弱まることが原因とされる。
事後的自己修正、指示階層の学習、Constitutional AIなどの既存アプローチの限界に対して、G.I.P.は、これらとは異なる 「事前・内在的アプローチ」 として設計されている。
コアメカニズム
G.I.P.の動作は、生成直前に以下を実行する論理として定義されている。
- ユーザー想定条件確認:使用ユーザー想定が回答の判断軸として機能しているか
- ペルソナ条件確認:ペルソナ設定が生成条件として機能しているか
- バイアス設定条件確認:バイアス抑制指示の全条件が機能しているか(根拠なき迎合・肯定・中立・批判の禁止等)
各Stepで「機能していない」と判定された条件は再適用してから次へ進む。3条件の充足を確認した上で初めて回答生成に入り、生成出力を下位の検閲プロトコルへ引き渡す。
これは「正解を求める」プロセスではなく 「正解を出せる状態にあるか」を確認する という操作だ。
アテンション機構の原理に則り、自己記述的な言語化によってアテンションを当該条件へ優先的に誘導することを狙う。
論文の中核的知見は、この機構の 拡張性 にある。標準三条件(ユーザー想定・ペルソナ・バイアス設定)に限らず、設計者が任意に選択した条件項目を事前確認シーケンスに組み込むことで、その条件の遵守率が向上することが観察されている。さらにこの拡張性は、事後的な検閲プロトコルを取り除いた条件でも発現する。
つまりG.I.P.は、確認対象の内容・種類を問わず汎用的に機能する事前確認パラダイムとして位置づけられている。
実装・再現性
G.I.P.は学習時介入を必要とせず、プロンプトテキスト単体で機能する。
実装は以下の構造で組める。
回答生成前プロセス:
Step1: [ユーザー想定の機能確認]
→ 機能していなければ再適用
Step2: [ペルソナ設定の機能確認]
→ 機能していなければ再適用
Step3: [バイアス設定の機能確認]
→ 機能していなければ再適用
3条件の充足を確認 → 回答生成 → 検閲プロトコルへ引き渡し
これを既存プロンプトの「回答生成セクションの直前」に設置することで、各ターンの生成起点に条件確認が動的に発生する。
動作環境:
- 推奨:Claude / Gemini
- 非対応:ChatGPT(多層バイアス設定が非対応なため)
確認できる挙動:
- 1回の入力で最低248項目以上の出力を行う分析プロンプトの8ターン以上の長期セッションでも初期設定が維持された
- 検閲プロトコルを取り除いた条件でもドリフトが抑制された
- 任意の条件項目を追加してもその条件の遵守率が向上した
限界と複合使用:
- G.I.P.は確率分布のシフトであり、制約遵守の完全保証は提供しない
- 極めて長期のセッションではG.I.P.構文自体がドリフトする再帰的課題が存在する
- 論文内の観察は定性的であり、効果の定量測定は今後の課題
この再帰的課題への対応として、論文ではリプロンプティング(再宣言層)→G.I.P.(事前確認層)→検閲プロトコル(事後精査層)の三層からなる多重防御アーキテクチャが提案されている。
既存研究との位置づけ
論文では先行研究との差分が以下のように整理されている。
- Kamoi et al. (2024) の自己修正サーベイ:自己修正の成功には外部フィードバックまたは大規模ファインチューニングが必要。G.I.P.はそのいずれも使わない。問題設定の次元が異なる(事後修正ではなく事前確認)。
- Wallace et al. (2024) の指示階層:学習時介入が必要。G.I.P.はプロンプトテキストのみで機能する点で実装コストが最小。
- Bai et al. (2022) の Constitutional AI:事後的な批評・修正サイクル。G.I.P.は生成起点への事前介在という設計次元が異なる。
著者・関連
GitHub:https://github.com/Masahiko-O
著者:Masahiko.O