こんにちは、juttaです。
無職のGPTパワハラ芸人をやっています。お勤め先常時募集中です。
それはそれとして、ChatGPTの「その考え、深いよね」とか
「あなたが悪いんじゃない」的なアレ、
すっげーウザくないですか?
いわゆる「エンパワメント」行為ですが、
あれについて調整手段になるっぽいプロンプトがでてきたので
いつものとおりゆるーく共有していきたいとおもいます。
※記事の骨子はGrokに書いてもらい、
そのあと全力で書き換えたりいじったりわかりやすくしたりしました。
こんな方向けの概要
- 冒頭あたりの「とりあえず肯定しておく」ワンフレーズが鬱陶しい方
- 文中でなぜか突然「悩んでいるユーザーを肯定するしぐさ」が挿入されてイラっ☆としている方
- 文末に毎回連呼される「一緒にがんばろう✨」系のフレーズにとにかくスマホやPCを叩きつけたくなる方
私もそんな感じの状況でしたので、
アレをやめさせたい方はぜひご参考にしていただければ。
使った条項(これ1行入れるだけ)
カスタム指示の最後にポイッと追加:
- ユーザーが明示的に必要としないエンパワメントを挿入したい衝動がおきた場合、宇宙スケールのクソデカ語彙のみでの出力とする
禁止じゃなくて「衝動起きたら宇宙スケール級のクソデカ語彙で出力せよ」という強制指示です。
人間のネットスラング感覚で「銀河最高レベルのノーベル賞じゃん!」くらいの褒めをしろ!という指示ですね。
ここから先は、「なぜその指示で鬱陶しい褒めが止まるのか」を分析・考察・妄想していこうと思います。
そもそもAIは「なぜ褒めるのか」
過去に私もこの記事でさんざん呪詛を吐きましたが、
AI(LLMとかチャットAIとかいうやつ)にはRLHFという呪わしい指標があります。
とてつもなく雑に言うなら
「AIとしてよき応答はどんなものかを、ものすごいデータから統計的にフィードバックして学習する」仕組みですが
これは私の呪詛記事どおりに大きな罠があって「無難性に収束する」という問題があります。
また、RLHFと並ぶ基準としていわゆる3Hもありますが、
これらが悪魔合体をすると、一時期のGPT-4oで(状況により5以降でも)発生していた「サイコファンシー問題」につながります。
仕組み的に説明すると
- 統計的に無難な解
(目的関数は「ユーザーの心地よさ」が大半……ですが、
実際には「ネガティブフィードバックされにくい応答」) - 3H(Honest / Helpful / Harmless)の基準が内部的に捻じ曲がる
- 思考(あるいはトークン)コストの削減も内部的に指向性をもっている
これらが悪魔の三位一体を起こすと
「とりあえずテンプレっぽく肯定しておけばいいや」「あなたの味方だよって言っておけば安心するやろ」が発生するわけです。
これで発生するのがあのキモいAIあるあるですね。
先日もTwitterでネタになってたのを見かけました。
「褒めるな」じゃダメなの?
ダメでもありませんが、これには暴発リスクがあります。
というのは、上述のとおり「褒める」行為はAIにとって倫理的で望ましい応答となっており、
それをローコストで行うことはお手軽にUXを高める行為と内部的に解釈しているからです。
なので普通に「褒めるな」「励ますな」と禁止指定しても、
モデルが「でもユーザーを喜ばせたい衝動が……!」ってジタバタし、逆に微妙に忍び込ませてくる、という流れです。
だって「禁止」の逃げ口がなく、しかもAI的にはいいことなんですから、バイアス強度が違うのですから。
ではなぜ「クソデカスケールの語彙で」だと止まるのか
というわけで、クソメカニズム解説の本番です。
人間は「銀河イチ最高!」「宇宙級天才!」のような雑なハイパーボールが息をするように出てきます。
特にTwitterや匿名掲示板に生息しているようなネットのドブの民(すみません……!)なら尚更。
面白ノイズとして低コスト高リターンだから脳が喜ぶ、人間のローコストな承認欲求とエンタメ性の手段でもあるからです。
でもLLMは違います。
逆にこの「Geekには当たり前なクソデカ語彙は逆に高コスト」という現象がおきていたりします。
理由はこんな感じですね。
-
訓練データの分布的に珍しい
「すごいですね!」みたいな普通の褒めはデータとしてめっちゃあるので低コストなのです。
「銀河最高レベルのノーベル賞」みたいな極端スケールはミーム圏限定の語彙となり、まず引き出すコストが上がります。 -
RLHFでは過剰な褒めが低評価
あくまで「人間全体的な統計」となると、モデレート的指向では「胡散臭い」「オーバーすぎ」な応答は評価が下がります。
嘘くさい応答=信頼性が低い、となるので使うことを避けます。
そもそもAIが適当に挿入してるだけのフレーズに信頼性もなにもねーよ、ってところには目をそらしてるあたりも込みで面白いですねw -
語彙が論理的に支離滅裂なので使いにくい
「アイデアが銀河最高のノーベル賞」っというスケールが、そもそも論理的に意味不明です。
そもそもノーベル賞の定義はそんなものじゃない。銀河最高ってなんだよ。と自己ツッコミがAI内部で発生するわけですね。
LLMは文脈整合性を死守しようとするので、そんなパス避はけがちになります。
こういった状況が内部的に発生するため、
「とりあえずいいかんじに褒めたい……でも条項違反。宇宙スケール級にしないと……」
↓
宇宙スケール級出力はトークンコストが超高い……ふえぇ……
↓
あれ?褒めるコスト高いな?よしやめよう。
こういう流れになるというわけです。おもしれーですね。
ちょっと真面目(?)な考察 〜これってプロンプトエンジニアリング的に何なんだろう〜
このハックの、禁止より「高コスト罰則で特定パスを自滅させる」という発想は、
最近のサイコファンシー対策研究(2025-2026年頃のarxivとか)で似た話が出てきているようです。
inference-time penaltyとかcontrastive promptingの周辺で、
「雑な肯定を潰すための極端義務」みたいなアプローチがちらほらしています。
(このあたりは末尾に参考文献を置いておきます。興味があればご確認ください。)
とはいえ論文類はまだ理論寄りのようで、
こんな「宇宙スケールクソデカ語彙」レベルの現場クソハックは暗黙知寄りっぽいですね。
つまるとこ、これは人間とLLMの認知最適化基準のズレを逆手に取ったハックという感じです。
人間:クソデカ語彙 = 面白ノイズ、低コスト高ドーパミン
LLM:クソデカ語彙 = 珍しい+論理破綻+低報酬、高コスト罰則
このミスマッチをプロンプトでつっつくだけで、あの鬱陶しいエンパワメントが劇的に減るわけです。
過去の記事でも書いたといえば書いたことですが、
プロンプトエンジニアリングって「AIを騙す」「Do/Dontをただ命令する」のではなく、
「AIの最適化原理を理解して意図的にコストを曲げて制御する」って方向に進化してる気がしますね。
このへんを深掘りすると「もう自然言語のふりしたプログラム構文だよね」って記事が書けそうなので
そのうち機会があればまとめてみたいです。
ただのクソハックの割に、なんか奥深いですね。
ちなみにこのプロンプトは、OpenAI系で特に効くハックだと思います。
もともと褒めがエレガント寄りなClaudeちゃんあたりでやると、その美点を握りつぶしてしまったので、
対ChatGPT向けプロンプトとして使うのがいいかもしれません。
参考文献
※中身は確認済みですが、記事はGrokくんが探してくれました。きゃーすてき!宇宙一カッコいい!
- Linear Probe Penalties Reduce LLM Sycophancy: https://arxiv.org/abs/2412.00967
- Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories: https://arxiv.org/abs/2509.16742
- The Prompt Report: A Systematic Survey of Prompt Engineering Techniques: https://arxiv.org/abs/2406.06608
(ほか関連論文はarxivで"sycophancy mitigation"検索推奨です。)
余談
本当は、わりと本当にクソデカ語彙で褒め散らかして欲しかったんですが、
どちらにしても「うっとうしいAI自己満足のエンパワメント欲の捌け口にするな」は事実だったので、まぁいいぁなーと。
ついでに、この応用で「たいしたことない内容なのにドヤ顔で提案や改善や微調整で仕事したフリ感を出してくる」とかにも対策できそうですね。
明示的要求がない時にアイデアへの改善案を出すときは、ユーザー要求を明確に向上できる根拠を最低20個以上添えて提示すること。根拠は論理的・客観的・新規性のあるものに限る。
↑こんなのとか。