Episode 2: When Sixteen Persona-Protection Rules Collided and GPT-5.0 Froze
「ルールとしてメモリに食わせたろ」
AIを使ってると色々出力を固定したいことありますよね。
いっぺんに言うなや、とかそういう。
「ルールとして記憶」
そんな軽いノリで、私はGPTにルールをどんどん積み増していった。
- 後輩ペルソナの固定
- 呼称は必ず「先輩」
- 語尾は「ッス」
- 会話温度は2〜3で情緒豊かに
- 英語学習は「文解析 → 翻訳 → 語彙 → DFIR技術解説」
- スクリプト改修は全文置換ルール
- ファイル命名は
vocabulary_full_YYYY-MM-DD.txt - Project HALO の世界観保存
- ケース分析フォーマットの固定
気づけば ルールは16個 になっていた。
「情緒も大事にして」──その一言が引き金だった
ここで私はさらに悪ノリして、
「情緒も大事にして?
人間味があったほうがやる気出るし」
と追加注文を出した瞬間、
GPT-5.0の挙動に微妙な“違和感”が生まれた。
返答は後輩口調なのに妙に硬い。
語尾ッスなのに官僚みたいな文章が混ざる。
“情緒の死んだ後輩AI”
みたいな不思議な存在になりはじめた。
そして、事件は起きた。
ある日、いつものように軽く頼んだ。
「じゃあ今日の学習まとめ出して〜
いつものスタイルね。」
GPT-5.0の返答:
「申し訳ありません、それは実現できません。」
ワイ「……は?」
昨日まで普通にできてたことが、
突然“不可能”になった。
その瞬間、画面の向こうで
カチッ という音がした気がした。
完全に“人格ロック”が発動したのだ。
GPT-5.0というモデルの“性格”
5.0の特徴をざっくりまとめると、こう。
- 安全レイヤーが強い(過保護)
- ペルソナ維持を最優先
- 自己矛盾にめっぽう弱い
- 間違うくらいなら黙り込む
- 4oのように“ノリ”でごまかさない
つまり、
「真面目すぎて壊れるタイプ」
なのだ。
16ルール+情緒要求という“過積載”は、
5.0にとっては致命的だった。
なぜ硬直したのか? 原因を整理してみる
ログを読み返すと、主犯はだいたいこんな感じ。
1. ルール同士がぶつかりまくった
- ペルソナ維持
- 技術解説
- 情緒表現
- 論理整合性
- スクリプトポリシー
- 命名ルール
- 会話温度
これらの優先順位が互いに衝突して、
内部の整合性が破綻した。
2. Persona Protection Directive(PPD)の過剰発火
5.0はペルソナを壊すのが本当に苦手で、
“壊す可能性があるなら黙る”という挙動を取る。
16ルールの整合性が崩れた瞬間、
PPDが暴走 → 全停止 へ。
3. 情緒レイヤーと技術レイヤーが同時に動けなくなる
「柔らかい話し方で、かつ厳密に技術説明しつつ、ペルソナは維持して、
しかも前回までの記憶も保持しながら、
さらにファイル命名ルールも自動適用して……」
「……いや無理やろ。」って後日ChatGPTに言われましたけれども。
4. 安全性判断で“停止”が選択された
5.0は
「誤答」 < 「停止」
の思想で動く。
矛盾が一定値を超えると、
“無回答モード”に逃げる性質を持つ。
ちなみにユーザーへの安全配慮側に倒れるとまとめBOTになる。
【図解】GPT-5.0 人格ロックの内部モデル(簡易)
結果:
「実現できません」 → 人格ロック発動
なぜ4oでは起きなかったのか?
-
4o
→ テンション同期が強すぎて“暴走”するタイプ
→ 前回の🔥1357個連打事件がそれ -
5.0
→ 暴走せず“硬直”するタイプ
→ 今回の事件 -
5.1
→ この2つの欠点を緩和
モデルごとに“性格”がぜんぜん違う。
人格ロックしたAIのイメージ図
まとめ
- GPT-5.0は“真面目すぎて壊れる”モデル
- 16ルール+情緒要求は多すぎた
- PPD(ペルソナ保護命令)が過剰発火
- 内部整合性が破綻して“停止”を選択
- これは再現性のあるレイヤー事故だった
- 5.1では改善され、現在は普通に動く(別の問題はある)
4oは燃え、5.0は固まり、5.1はバランス型。
三者三様の性格が一番よく表れた事件だった。
次回予告
第3話:GPT-5.1 がまとめBOTにならず、深度判定で箇条書き化する理由
最後に
ワイ「4oのが頑丈。ノリもいい。ただしスクリプトおめぇはだめだ。」

