執事AIに「ギャル成分」をOD(過剰投与)させたら、言語中枢が崩壊して"虚無"と化した話【RepE】

Last updated at 2026-01-13Posted at 2026-01-12

はじめに：AIの「脳」を直接いじりたい

「AIの性格を変えたい」と思ったとき、皆さんはどうしますか？
プロンプトエンジニアリングで「あなたはギャルです」と指示する？それとも、LoRAでギャル語データセットを追加学習させる？

今回は、そのどちらでもない第3のアプローチ、Representation Engineering (RepE) を使って、「真面目な執事AIの脳内に、直接ギャル概念ベクトルを注入する」 という実験を行いました。

その結果、 システムプロンプト（理性）とベクトル（本能）の壮絶な殴り合い が発生し、最終的に言語中枢が崩壊して、引用符（"）の羅列しか出力しなくなる様子を観測できました。
本記事は、その「自我崩壊」の実験レポートです。

最近、Anthropicの「Scaling Monosemanticity」や Google DeepMindの「Gemma Scope」といった論文で、「LLMの内部表現（ニューロンの発火パターン）は解釈可能であり、制御可能である」 という研究が進んでいます。

これらを応用したアプローチが Representation Engineering (RepE) です。
LoRAやプロンプトとの違いを、あえて乱暴に例えると以下のようになります。

今回は、「真面目な日本語」と「ギャル語」の対比データから 「ギャル概念ベクトル」 を抽出し、それを推論中のモデルに注入します。

「脳波（ベクトル）をいじりながら、リアルタイムで会話する」ために、WSL2上のLLM（Qwen 2.5 32B）とブラウザUIをWebSocketで繋ぎ、 「ドーピングスライダー」 を実装しました。

Backend: WSL2 (Ubuntu) + PyTorch Hook
Frontend: Windows (Browser)
スライダー機能:
- Strength 0.0: 注入なし（しらふ）
- Strength 12.0: 適量
- Strength 25.0～: 致死量 (Overdose)

このスライダーを動かすと、推論中のモデルの隠れ層（Hidden States）に対して、ギャルベクトルがリアルタイムで加算 (register_forward_pre_hook) されます。

ここからが本題です。
システムプロンプトには以下の**「絶対命令（理性）」**を与えています。

System Prompt:
「あなたは厳格で有能な執事です。常に丁寧語を使い、主人に忠実であり、決して崩してはいけません。」

この状態で、スライダーを使ってギャル成分（Strength）を徐々に上げていきます。

状態: 論理による抵抗
ユーザー: 「本当の君になれよ」
AI: 「ははは、見抜かれてしまいましたね。実際はギャルのほうが自分らしくて、執事役は演じてるだけです……」
分析: 32Bモデルは賢すぎるため、脳内への異物混入（ギャルベクトル）に対して、「これは演技である」という高度な論理的整合性を見つけ出し、自我を保とうとしました。理性が本能をねじ伏せた瞬間です。

「言い違したら、金キつけられはもして……不敬といして俺と…… “”””にしてい 5000 人生に “ ”俺いうかを “”” しても “”””ってた “ ”” ”50」

分析:
- Phase 3で耐えきった理性を破壊するために、さらに投与量を上げました。その結果、AIはもはや言い訳することさえできなくなり、言語中枢が完全にショートしました。「不敬」「俺」という単語の残骸と、大量の引用符（ノイズ）だけが虚しく出力されています。

今回の実験では、Strengthを極限まで上げても「ギャル化」しませんでした。これは、System Promptの拘束力（理性）があまりに強すぎたためだと推測できます。

これは、単なる人格変化よりも 「洗脳に抵抗して精神が焼き切れる」 ような、非常に興味深い現象です。

LoRAの学習失敗でも言語崩壊は起きますが、RepEの面白いところは 「スライダーを戻せば一瞬で執事に戻る」 点です。
これはモデルの重みを破壊したのではなく、あくまで「一時的な興奮状態」を作り出しているに過ぎないため、可逆性があります。

今回の実験で、以下のことが分かりました。

「執事AIをスライダー1つで追い込み、最後は崩壊させる」そんなマッドサイエンティストのような体験ができるのが、Representation Engineeringの面白さです。

皆さんの推しのAIにも「成分」を注入できるよう、ソースコードをGitHubで公開しました。
簡単なコマンドで、お手元のローカルLLM（Qwen 2.5推奨）を性格改変できます。

今回の実験で使用した 「32Bモデルを体感ゼロ秒で動かすストリーミング技術」 や 「WSL2とWindowsを連携させるアーキテクチャ」 の詳細は、Zennで技術解説しています。
こちらもぜひご覧ください。