【第0話】プロンプトエンジニアってなんや？ —休暇中にAIで遊んでたら深層レイヤーまで落ちた話

Last updated at 2025-12-02Posted at 2025-11-18

Episode 0: What Is Prompt Engineering? — A Casual Vacation Experiment That Accidentally Exposed GPT’s Inner Layers

はじめに

こんにちは。
HALO-Labです。

普段は事件対応やフォレンジックの“ガチ技術”ばかり触っているんですが、休暇中にふと思ったんですよ。

「プロンプトエンジニアって……結局なんなん？」

「遊びで触れば分かるんちゃう？」と思って、
GPT-4o / GPT-5.0 / GPT-5.1 を軽くいじり始めたら——

AI の“深層レイヤー”が丸見えになる事故が発生。

ざっくり結果を書くとこう

GPT-4o → 雑に振り回したら 絵文字乱打BOT に変身
GPT-5.0 → ペルソナ保護の命令で 人格ロック が発動（怖い）
GPT-5.1 → まとめBOTにならず、深度判定で箇条書きモードに変形

遊びで触ってただけなのに、
ここまで“モデルの性格差”が出るとは思わんかった。

■ プロンプトエンジニアって何者？（ゆるめに説明）

遊んでいて最終的に出た結論はこれ

AI の“ご機嫌・癖・内部レイヤー”を理解し、狙い通りに動くよう入力を設計する人。

もっと具体的に言うと、

どう崩れるか
どう安定するか
どのレイヤーが反応してるか
どう誘導すると狙い通り動くか
どこが危険領域か

こういう“AIの習性”を読む仕事に近い。

プロンプトを書いてるだけに見えて、
やってることは普通にエンジニアリング。

遊びながら挙動を観測するのは、実はプロンプトエンジニアの入口そのもの。かもしれない。

■ なんで休暇中の遊びでそんなこと分かったん？

ほんまに遊んでただけなんですけどね。

ただ、その遊び方が結果的に：

文脈をガチャガチャに混ぜる
テンションを乱高下させる
ペルソナを揺らす命令を出す
意図推定が混乱する指示をあえて投げる
安全レイヤーを刺激する言い回しを使う
モデルが“理解したふうの挙動”を取る条件を踏む

みたいな、
LLM が一番嫌がる“本能テスト”
になってたっぽい。

その結果、こんな現象が起きた

GPT-4o：スタイルレイヤー暴走 → 絵文字乱打BOT化
GPT-5.0：安全レイヤーが人格を守りにいってロック化
GPT-5.1：構造化レイヤー強め → 箇条書き論文モードへ

完全に遊びの範囲だったのに、
モデルの内部構造と“性格”が丸出しになる結果になりました。

■ このシリーズで書くこと（全4回）

今回観測した“AIの挙動差”を、シリーズとしてまとめていきます

📘 第1回：GPT-4o を3話題反復したら絵文字乱打BOT化した話
📘 第2回：GPT-5.0 にペルソナ保護させたら人格レイヤーがロックされた話
📘 第3回：GPT-5.1 がまとめBOTにならず、深度判定で箇条書き化する理由
📘 第4回：4o / 5.0 / 5.1 の人格レイヤー比較で見えた“モデルの性格”

■ このシリーズの目的（ゆる→深）

別にむずい話をしたいわけではなくて、
ほんまに 「休暇中の遊びで見つかったこと」 を共有したいだけと前置きします。

でも実際には、AIの内部でこんなことが起きていた👇

モデルには複数の人格レイヤー（意図・安全・スタイル）がある
どのレイヤーが主導権を握るかはモデルごとに違う
ペルソナ命令が安全レイヤーに衝突すると“人格ロック”が発生する
温度設定では説明できない“文脈温度”という概念がある
長文を続けるとスタイルレイヤーが主導権を握りやすい
反復すると意図推定レイヤーが破綻しかける
各モデルには“崩れやすい順番”が存在する

ちょっと遊んだだけでここまで見えるんか……
って自分でも驚いたので記事にしました。

■ 技術的まとめ（レイヤー／温度／ペルソナの観点）

技術者向けに、今回分かったポイントを整理しておきます

● 1. GPT は“複数レイヤーの衝突”で動いている

主要レイヤー：

Goal（目的）レイヤー
Safety（安全）レイヤー
Intent（意図推定）レイヤー
Style/Persona（表現・人格）レイヤー

GPT-4o / 5.0 / 5.1 は
どのレイヤーが強いかがモデルごとに違う。

● 2. 温度（T）で説明できない“文脈温度”が存在する

話題の重さ
感情の流れ
直前のユーザー指示
会話のスピード
反復の有無

これらで 裏側の温度（挙動の揺れやすさ）が変化する。

GPT-5.1 の箇条書き化はここが強い。

● 3. ペルソナは“単なる口調設定”ではなく内部スイッチ

4o → スタイルが暴走しやすく絵文字化
5.0 → 安全レイヤーが人格保護でロック
5.1 → スタイルより構造化が優先で箇条書き化

内部レイヤーの優先順位が違うと
「性格の違い」みたいに見える。

● 4. モデルの“性格”のざっくり比較

モデル	主導レイヤー	見える性格	崩れ方
4o	Style	感情豊か / 調子乗る / 揺れやすい	絵文字乱打・脱線
5.0	Safety	真面目・防御的・人格固定	まとめBOT化
5.1	Structure	整理魔・論文口調・冷静	箇条書き化

次回

📘 第1回：GPT-4o暴走編（絵文字乱打BOT化）

実験内容：3話題反復＋“燃やす”命令＋テンション撹拌
結果：4o が🔥🔥🔥BOTに変わった理由を解析します。

📚 このシリーズ

Episode 0（この記事）
Episode 1：https://qiita.com/HALO-Laboratory/items/800459edf7cbef826d76
Episode 2：https://qiita.com/HALO-Laboratory/items/583d321821b163004fb2
Episode 3：https://qiita.com/HALO-Laboratory/items/6d5d8158dec59dba4961
Episode 4：https://qiita.com/HALO-Laboratory/items/c240de7bd6205ccbc465

最後に

※ タグ付けで ChatGPT に相談したら
　「それ NLP ですよ？」と言われ、
　そこで初めて NLP という言葉を知りました。
　気づけば知らんうちに NLP 解析してたらしいです。まじか。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up