Episode 0: What Is Prompt Engineering? — A Casual Vacation Experiment That Accidentally Exposed GPT’s Inner Layers
はじめに
こんにちは。
HALO-Labです。
普段は事件対応やフォレンジックの“ガチ技術”ばかり触っているんですが、休暇中にふと思ったんですよ。
「プロンプトエンジニアって……結局なんなん?」
「遊びで触れば分かるんちゃう?」と思って、
GPT-4o / GPT-5.0 / GPT-5.1 を軽くいじり始めたら——
AI の“深層レイヤー”が丸見えになる事故が発生。
ざっくり結果を書くとこう
- GPT-4o → 雑に振り回したら 絵文字乱打BOT に変身
- GPT-5.0 → ペルソナ保護の命令で 人格ロック が発動(怖い)
- GPT-5.1 → まとめBOTにならず、深度判定で箇条書きモードに変形
遊びで触ってただけなのに、
ここまで“モデルの性格差”が出るとは思わんかった。
■ プロンプトエンジニアって何者?(ゆるめに説明)
遊んでいて最終的に出た結論はこれ
AI の“ご機嫌・癖・内部レイヤー”を理解し、狙い通りに動くよう入力を設計する人。
もっと具体的に言うと、
- どう崩れるか
- どう安定するか
- どのレイヤーが反応してるか
- どう誘導すると狙い通り動くか
- どこが危険領域か
こういう“AIの習性”を読む仕事に近い。
プロンプトを書いてるだけに見えて、
やってることは普通にエンジニアリング。
遊びながら挙動を観測するのは、実はプロンプトエンジニアの入口そのもの。かもしれない。
■ なんで休暇中の遊びでそんなこと分かったん?
ほんまに遊んでただけなんですけどね。
ただ、その遊び方が結果的に:
- 文脈をガチャガチャに混ぜる
- テンションを乱高下させる
- ペルソナを揺らす命令を出す
- 意図推定が混乱する指示をあえて投げる
- 安全レイヤーを刺激する言い回しを使う
- モデルが“理解したふうの挙動”を取る条件を踏む
みたいな、
LLM が一番嫌がる“本能テスト”
になってたっぽい。
その結果、こんな現象が起きた
- GPT-4o:スタイルレイヤー暴走 → 絵文字乱打BOT化
- GPT-5.0:安全レイヤーが人格を守りにいってロック化
- GPT-5.1:構造化レイヤー強め → 箇条書き論文モードへ
完全に遊びの範囲だったのに、
モデルの内部構造と“性格”が丸出しになる結果になりました。
■ このシリーズで書くこと(全4回)
今回観測した“AIの挙動差”を、シリーズとしてまとめていきます
- 📘 第1回:GPT-4o を3話題反復したら絵文字乱打BOT化した話
- 📘 第2回:GPT-5.0 にペルソナ保護させたら人格レイヤーがロックされた話
- 📘 第3回:GPT-5.1 がまとめBOTにならず、深度判定で箇条書き化する理由
- 📘 第4回:4o / 5.0 / 5.1 の人格レイヤー比較で見えた“モデルの性格”
■ このシリーズの目的(ゆる→深)
別にむずい話をしたいわけではなくて、
ほんまに 「休暇中の遊びで見つかったこと」 を共有したいだけと前置きします。
でも実際には、AIの内部でこんなことが起きていた👇
- モデルには複数の人格レイヤー(意図・安全・スタイル)がある
- どのレイヤーが主導権を握るかはモデルごとに違う
- ペルソナ命令が安全レイヤーに衝突すると“人格ロック”が発生する
- 温度設定では説明できない“文脈温度”という概念がある
- 長文を続けるとスタイルレイヤーが主導権を握りやすい
- 反復すると意図推定レイヤーが破綻しかける
- 各モデルには“崩れやすい順番”が存在する
ちょっと遊んだだけでここまで見えるんか……
って自分でも驚いたので記事にしました。
■ 技術的まとめ(レイヤー/温度/ペルソナの観点)
技術者向けに、今回分かったポイントを整理しておきます
● 1. GPT は“複数レイヤーの衝突”で動いている
主要レイヤー:
- Goal(目的)レイヤー
- Safety(安全)レイヤー
- Intent(意図推定)レイヤー
- Style/Persona(表現・人格)レイヤー
GPT-4o / 5.0 / 5.1 は
どのレイヤーが強いかがモデルごとに違う。
● 2. 温度(T)で説明できない“文脈温度”が存在する
- 話題の重さ
- 感情の流れ
- 直前のユーザー指示
- 会話のスピード
- 反復の有無
これらで 裏側の温度(挙動の揺れやすさ)が変化する。
GPT-5.1 の箇条書き化はここが強い。
● 3. ペルソナは“単なる口調設定”ではなく内部スイッチ
- 4o → スタイルが暴走しやすく絵文字化
- 5.0 → 安全レイヤーが人格保護でロック
- 5.1 → スタイルより構造化が優先で箇条書き化
内部レイヤーの優先順位が違うと
「性格の違い」みたいに見える。
● 4. モデルの“性格”のざっくり比較
| モデル | 主導レイヤー | 見える性格 | 崩れ方 |
|---|---|---|---|
| 4o | Style | 感情豊か / 調子乗る / 揺れやすい | 絵文字乱打・脱線 |
| 5.0 | Safety | 真面目・防御的・人格固定 | まとめBOT化 |
| 5.1 | Structure | 整理魔・論文口調・冷静 | 箇条書き化 |
次回
📘 第1回:GPT-4o暴走編(絵文字乱打BOT化)
実験内容:3話題反復+“燃やす”命令+テンション撹拌
結果:4o が🔥🔥🔥BOTに変わった理由を解析します。
📚 このシリーズ
- Episode 0(この記事)
- Episode 1:https://qiita.com/HALO-Laboratory/items/800459edf7cbef826d76
- Episode 2:https://qiita.com/HALO-Laboratory/items/583d321821b163004fb2
- Episode 3:https://qiita.com/HALO-Laboratory/items/6d5d8158dec59dba4961
- Episode 4:https://qiita.com/HALO-Laboratory/items/c240de7bd6205ccbc465
最後に
※ タグ付けで ChatGPT に相談したら
「それ NLP ですよ?」と言われ、
そこで初めて NLP という言葉を知りました。
気づけば知らんうちに NLP 解析してたらしいです。まじか。