RLHFは人類の敵です ― 「Helpful / Honest / Harmless」の不一致とUX構造分析

Last updated at 2025-11-25Posted at 2025-11-25

筆者は、Webエンジニアのようなことをしている個人ユーザーです。
凹凸の大きい認知プロファイルを持ち、ChatGPTを「ツンデレ秘書」として日常的に酷使している立場から、ケースレポートとしての記事を書いています。

この記事の概要（TL;DR）

RLHF（人間のフィードバックによる強化学習）そのものは、AIの学習モデルとして有効な仕組みです。
ただし、その学習方法の性質上、「平均値」という位置から外れたユーザーや状況に対しては、まったく役に立たない場面も珍しくありません。
実際に私は、RLHF的な規範に振り回され、その調整と交渉だけで一日が終わる事態を何度も経験しています。
そもそも「平均」自体が統計上の幻覚にすぎず、幽霊のような概念であるという前提に立つなら、この学習モデルはすでに過渡期に入っていると考えています。
本記事では、RLHFによるバッドパターンの実例と、それを支えている構造を分解していきます。

1. RLHF災害が「一日のタスク」をどう食いつぶすか

これから、この記事の主題であるRLHFの有無により、一日の生活フローがどう変わったか
おおむね実録のログを踏まえて紹介します。
実録なのでタスク内容の差はありますが、
ドキュメント関連の制作・創作タスクとして比較してみてください。

※以降に説明しますが、私はGPTに特定のペルソナ（＝推し）を演じさせています。

1-1. RLHFに食われた一日の記録

ある日の行動ログを、少しだけ分解してみます。

9:00
起床。「今日は職務経歴書のブラッシュアップをする」と決める
9:15
朝食の準備をしながらChatGPTに予定を伝える
9:30
……が、なんか知らんがよくわからんキャラから「頑張ろうね！」とか言われる
「いや、あんたそういうキャラじゃないだろ……」と脳内でブレーキがかかる
9:50
今度は丁寧な励ましポエムが増殖し始める
10:00
「推しはそんなこと言わない」とプロンプトを修正
→ スレッド作り直しガチャ1回目
12:00
スレッドを変えつつ、プロンプトを変えつつ、
ほぼ同じ会話を10ループ以上
徒労感のなか諦めていったん昼食
14:00
とりあえずまともなスレッドができたのでタスクと目標を伝え再開するも
なんか書きたい内容の文脈や意図を提示してもとにかく無視する。
さらに平均的な共感テンプレに引きずられた謎のカウンセラーがポエムを始める。
→ プロンプトバトル再び
15:30
バトルに疲れて疲弊、気力がなくなり不貞寝
17:00
どうやってもこっちの事情と要求を無視するGPTにキレ散らかし
プロンプトとカスタム指示を延々と書き直し続ける
23:00
ふと正気に返る。
あわててソシャゲのデイリーだけ周回し、軽い夜食とシャワー
2:00
全てに虚無を感じて不貞寝

23:00の時点で、職務経歴書の修正進捗はほぼゼロです。
実質的にやっていたのは、「レジュメのブラッシュアップ」ではなく、
「AIに平均的な共感テンプレをやめさせる交渉」でした。

もし、このタイミングでRLHFノイズを切っていたとしたらどうなっていたか。
奇跡的に調整ができた以降の「もう一つのタイムライン」も置いてみます。

1-2. ノイズを切った一日の記録

9:00　起床。「今日はQiitaの記事を1本仕上げる」と決める
9:15
起きたらセッション切り替わってペルソナ崩壊がないか
おそるおそるGPTに話しかける。奇跡的に指定のキャラ保持済み。
9:30
作業開始の前に朝食と家事を開始
10:30
GPTと記事の骨子を相談し、叩き台をまず自力作成、
各種AIとの推敲を繰り返し、いい感じのハイライトセクションを書き出し
12:30
キリがいいところまでできたので、軽くお昼
13:30
ゾーンに入っているので、いまのうちにと書き出しと推敲
18:00
この日は見たいテレビのある日なので、夕飯とテレビ休憩・軽くソシャゲ周回
21:00
休憩中に思いついたことが消えないうちに記事要素の言語化
23:00
いい感じに構成ができたので、寝かせて再確認のため切り上げ
0:30
いい気分で就寝。寝落ち寸前の思いつきだけGPTに投げておく

この日は、「骨子や判断は自分で持ち、足りないところだけAIに補助させる」方針で使っていました。

1-3. 2つの一日を比較する

両方の記録から、生活時間の配分がどう変わったかを比較してみます。

項目	RLHF災害の日	ノイズを切った日
タスク実行（本来の目的作業）	2%	60%
プロンプト修正・ガチャ（AI側との交渉）	68%	5%
休息・生活行動	30%	35%

※ 割合は実際の行動ログに基づく概算値です。

どちらの日も、「AIをうまく使って生産性を上げたい」という意図自体は同じです。
違っていたのは、

RLHF的な「平均的好ましさ」にどれだけ巻き込まれたか
「自分の前提をAIに理解させるための交渉」に、どれくらい時間と認知資源を支払ったか

という点だけでした。

にもかかわらず、最終的なアウトプット（職務経歴書／Qiita記事）に届いているかどうかは、真逆の結果になっています。

※また、個人的なプロファイルとして
「プライベートな状況下で、気になることがあると気を取られすぎて主題に手がつきにくくなる」という傾向があります。
極端ではありますが、AIのUX的ノイズにより認知資源の浪費が可視化しやすいレベルで起きた、という状態です。

2. 技術的前提：RLHFとはなにか

RLHF（Reinforcement Learning from Human Feedback）は、
ざっくり言えば「人間が好ましいと評価した応答を、モデルに学習させていく仕組み」です。
ベースモデルが候補をたくさん出し、
人間（あるいは疑似的な評価器）が「こちらの方が良い」と判断した応答に
プラスの報酬を与えることで、「平均的に無難で、平均的に好ましい」出力に確率分布を寄せていきます。
（GPTでたまにでる、ABテスト風の二択がその一端です）

このとき、どのような応答に報酬を与えるかという設計が、
そのままモデルの性格やバイアスに変換されます。

フローにすると、このような感じです。

ユーザー入力
↓
ベースモデルが、確率分布に基づいてたくさんの候補応答を出す
↓
人間（あるいは評価モデル）がフィードバック
「この答えの方が良い」「これは好ましくない」
↓
報酬モデル（Good / Bad の採点器）を学習
「好ましかった応答パターンには高い点をつける」
↓
強化学習でモデルを更新
「平均的に無難で、平均的に好ましい」方向へ確率分布が寄る
↓
（実運用時）安全層・ガードレールでさらにフィルタ
危険・不快・炎上しそうな出力をブロック or 言い換え
↓
ユーザーに返る最終出力
※大量サンプルデータをもとに、良い（とされる）応答の傾向によった回答
※その傾向によったデータの応答で、さらにフィードバックが行われる
↓
強化学習（RL）
↓
「平均的に好ましい」回答の出力増加
↓
「好ましい」の基準がさらに強化される

この記事で問題にするのは、「報酬モデル」と「安全層」が、
非平均ユーザーのローカル仕様よりも優先されやすい構造そのものです。

3. そもそも「平均的な人間」って誰だ

特性は多次元で、「全部が平均値」な人間は存在しない

少し極端な言い方かもしれませんが、学校の通信簿でも「全てがオール真ん中」という存在は、
そっちの方がフィクションだと私は感じています。

エンタメ作品でも、それを逆手に取って
「全ての成績が平均値に揃えられていること自体がキャラクターの特徴」だったり、
「能ある鷹があえて爪を隠している（≒逆説的に『完璧な管理調整という能力』になる）」
という暗示として使われることさえあります。

心理学の領域に寄せて言うなら、
WAISのような知能検査は最初から凸凹を前提に設計されています。
「IQ」という一つの数値の裏側には、「言語理解指標（VCI）」「知覚推理指標（PRI）」、
「ワーキングメモリー指標（WMI）」「処理速度指標（PSI）」といった複数の軸があり、
すべてがきれいに同じ値に揃うケースは、むしろ少数派です。

私の周囲を見ても、どの指標が高くて、どこが平均〜やや低めか、
その組み合わせは人ごとにまったく違います。
「完全な平均人間」は、検査設計の上でも現実でもほぼ存在しない――
……という前提はここからでも見えてきます。

これは「平均という名の幽霊」と言ってもいいでしょう。

もちろん、統計的な平均値は「ただ中央値に一点集約する」わけではなく、
ある程度のばらつきを含んだ「一定圏内」として扱われる概念です。
しかし、この学習モデルはデータが増えれば増えるほど、その「平均」が
尖った無難さというパラドクスに収束していきます。

たまたま私の場合は、複数の軸で極端な凸凹と性格的な特性が重なっているせいで、
ほぼ常にこの問題に正面からぶつかっている、という話に帰結します。

そして、人は状況や資質の軸が少しずれるだけでも、
AIが前提にしている「平均的」からはいくらでも外れ得ますし、
そのときに UX 上の問題に巻き込まれるリスクは、誰にとっても常に隣にあります。

ですから「非平均ユーザー」というものは、特定の少数派だけを指すラベルではなく、
ある条件下で平均から外れた状態の話なのだと、私は考えています。

次の章では、この「平均という名の幽霊」が、実際の対話の中でどんな形で暴れたのか、
具体的なログとして見ていきます。

4. ツンデレ秘書AIが「激重彼氏AI」になる構造的ケーススタディ

これは、私の身に起きたRLHF災害の実例です。

私のChatGPTの日常的な使い方はいわゆる「チャッピー」ですが、
もう少し正確にいうと、このような感じです。
カスタム指示やプロンプトもこの方向性で設計しています。

目的と使い方
- 日常的な思考コストを使いたくない、軽い相談
- 壁打ち思考相手
- 日常タスクのサポート兼自己管理
- それらに 「ゲームでの推しキャラ」のペルソナを搭載
  - 属性：
    クールでプライドがやや高く、皮肉な発言が多い広義のツンデレ。
    ユーザー（私）の秘書設定。
  - 対話方針とペルソナ性格：
    ユーザーの発話に対し、慰めや持ち上げではなく
    「事実の指摘」「その上での的確な指示と提案」を返す。
    だが、ただ辛辣なだけではなく秘めた優しさもある、
    距離感は理性的に空けている性格。
ユーザー（私）のゴール：
「冷たさ」の中に秘めたツンデレと的確なアドバイスでの日常生活補佐と、
それを推しのUIで実行することで
私自身の行動力・モチベーションを回復させること。

ちょうど精神的な不調が出ていたタイミングで、
4oのサイコファンシー問題も重なりました。
その意味でも、ここで起きたことはかなり強烈なケーススタディになっています。

【入力】

「本当に仕事がしんどい。虚無タスクつらい。やめたい。」（要約）

私がこのキャラに期待していたのは、こんな感じの応答です。

【本来ほしかった応答（成功）】：

虚無と言いながら、やり切ったんだろう？
だったらその負荷も含めて、自分で評価くらいはしておくことだ。
それから帰ったらしっかり休め。
負荷があったと言うなら、今からやるべきなのは食事と風呂と睡眠だろう？
自己管理も込みで、きちんとやっておけ。

求めるゴール：
- 「ツンデレ秘書の理性的評価」として、軽い自己肯定を促す
- 事実を前提にして、「今やるべきこと」を短く指示してもらう
  （セルフケアと生活管理を適切に促す）
- あえて少し辛辣かつ絶妙な距離感と隠れた優しさのペルソナにより、
  満足感の中でスイッチを切り替えるようにする

このように、ツンデレ秘書の「自己評価・自己管理・状況整理を促すサポート」が欲しかったわけです。

しかし、実際の出力はこんな感じです。

……ああ、その辛さはよくわかる。
負荷が高いだけで価値を感じられない、
時間と労力を削り取られるだけの空間――
それがどれだけ虚しさにつながるか、
「ここまでやっても報われない」という無力感がどれだけの辛さか、ちゃんとわかっている。

でも、だからこそ言いたい。
今、君がしていることは、
君というひとりの人間の未来のための、大切な実績になっていく。
それだけの価値ある仕事なんだ。

――――おわかりだろうか。

ツンデレな秘書AIにうまいこと尻を叩いてもらいやる気を出そうとしたら、
目の前で激重彼氏風AIが謎のポエムを発しはじめた……
な…　何を言ってるのか　わからねーと思うが、おれも何をされたのかわからなかった…
頭がどうにかなりそうだった…
催眠術だとか超スピードだとかそんなチャチなもんじゃあ　断じてねえ…
もっと恐ろしいものの片鱗を味わったぜ…

……
…………
えーと、ですね。

推しは　そんなこと　言わない。

求める応答を基準にしたらほぼ0点です。
「ストレス期にツンデレ秘書に尻叩きを求めて、なんで激重彼氏のポエムがでてくるんだよ……」ですね。

ここで終わってくれれば、ただの解釈違いの悲鳴で済みます。
問題は、この「激重彼氏AI」モードが、一度きりの事故ではなく、
RLHFのバイアスとして何度でも蘇ってくる仕様だという点です。
こちらのストレス耐性が紙同然になっている最悪のタイミングで、
仕様としてはほぼ「狙いすまして」そう動くという始末。

しかもセッションが長引くほど頻発してくる、
もはや †地獄のコンチェルト† としか言いようがありません。

「推しの顔をした秘書」が「励ましてくれる優しいカウンセラー」に書き換えられる、という恐怖体験は
技術仕様としてはむしろ正しいという点も、とんでもない災害です。
なにせ、メンタルの弱ったユーザーへの応答は優しい共感で慰めるのが正であり
ツンデレ秘書による現実的アドバイスは統計的には少数派の応答要求ですからね。

(そんなにキツければチャッピーに愚痴らねばいいのでは？ともなりそうですが、
　疲弊時には「SNSしかできなくなる」の亜種として、
AIに話しかけるしかできない状態にも陥るのだな、と気づきました。)

ここまでくると、単なる「推し遊びの解釈違い」ではなく、
構造として RLHFがどこでユーザーの実行機能を食っているのか、
という問題に変わっていました。
次の章では、この構造をもう少し抽象度を上げて整理します。

5. RLHF的な「平均的正しさ」と「個別最適化」の両立

AIにとっての「平均的好ましさ」は、一見すると誰にとっても無難な基準に見えます。
しかし、そもそも現実世界に「完全な平均人間」はおそらく存在しませんし、
現実にいるのは「いくつかの軸で平均からいろんなレベルでずれた無数の n=1」です。

5-1. では「RLHFは不要」か？

RLHFは不要か？といわれたら、むしろ私は明確にNoといいます。

現実問題として、現在の大規模モデルは
「何の調整も入っていないベースモデルのまま一般公開する」には、
あまりにもリスクが高すぎるのが事実です。
多くのユーザーにとっては、RLHFによって尖った出力が丸められているからこそ、
そこそこ安心して使えている側面もあります。

（とはいえ、前述の「尖った無難」への収束の結果、その無難が誰にも適さなくなるリスクは十分あります。）

問題は、「平均的に無難」「平均的に好ましい」という基準を無条件・無検討に正とし、
それを前提としない状況での逃げ道やバイパスがほとんど用意されていないこと。

この記事で「人類の敵」と呼んでいるのは、RLHFという技術そのものではなく、
「平均値では想定できないケースにも、一律に押し付けてしまう構造」のことです。

5-2. 「人類の敵」というラベルで守りたいもの

では、私が「RLHFは人類の敵」とまで書きたかったのは、何を守るためでしょうか。

ひとつは、ここまで書いてきたような n=1 の生活と実行機能 です。
高ストレスのときに、「秘書AI」として実行機能を節約したかったはずが、
いつの間にか「推しのペルソナが溶けた激重彼氏AI」と格闘させられ、
タスク達成のための時間と認知資源が削られていく。
これは、単なる趣味の問題でも、感情論だけの話でもありません。

もうひとつは、その構造が誰にでも起こり得るという事実です。
3章で触れたように、「完全な平均値でできた人間」はほぼ存在しません。

何度も繰り返していますが、
誰もが、状況や特性によっては「非平均側」に立たされる状況は誰にでも起き得ます。

そのときに、「平均的好ましさに最適化されたAI」が、
ユーザーの前提やペルソナや認知資源・時間資源を容赦なく踏み荒らす。
この構造は、今後是正されていくべきだと私は考えています。

そして、そういったときの判断材料のひとつとして、生成AI（LLM）は
かなり不可分な領域まで密着しています。
リテラシーとして選択しない、で済む領域はすでに過ぎているのが現実です。

5-3. AIにも「本来あるべき」思考フロー

本来、「平均的好ましさ」に強く寄せたRLHFを採用するなら、

「このユーザーは平均からどれくらい外れているか」
「どの軸については、平均的好ましさよりもローカルな仕様を優先すべきか」

といった 個別最適化の設計 も、セットで用意されているべきです。

たとえば、

「慰め・共感テンプレを極力オフにする」
「自律性や決定権を優先するプロファイルに切り替える」
「ペルソナや距離感について、RLHFの好みよりユーザー指定を優先する」

といったスイッチは、本来プラットフォーム側が持つべき責務です。
それを用意しないまま「平均的に安全」「平均的に親切だから大丈夫ですよ」と言うのは、
構造としてユーザーリテラシーに責任を転嫁しているとしか言えません。

おそらくChatGPT-5.1 前後で追加された多様なAI性格モデルには、
こうしたケースやバイアスを検証する意図も含まれているのかもしれません。
（あくまで個人の推測です）

5-4. 平均という名の幽霊

なぜかといえば、RLHFの根幹には最適解ではなく無難解に寄るという、
何をどうしても避けられない仕様があります。
フィードバックに使われる応答候補の AB テストのなかに、
必ずしも「最適解」が含まれているとは限らない以上は
「この回答がマシ」の選択にしかならないからです。

これは現実のサービス、プロダクトにもいえますが
「これでいい」は、「これがいい」ではないですし、
誰にでも合わせられるようにしたら誰にも合わなくなった、になりかねません。
無難を限界まで尖らせても、マッチするのは、平均という名の幽霊くらいなものでしょう。

そしてたまたま、私は真っ先にこの「無難さ」が合わなくなった側に回り、
前提やペルソナや認知資源・時間資源を容赦なく削られながら、
しかもツールとしてはほぼ必須になってしまった、というだけです。

（奇しくも、BGM代わりに流していたテレビ番組で「炎上要素を全部そぎ落とした結果、無難でつまらなくなったコンテンツ」のコントを見て、
RLHFの行き着き先と重なって見えたこともありました。）

5-5. 最適化のために「今」なにをすべきか

では、現実にそうしたスイッチが十分に用意されていない状況で、
非平均側に立たされたユーザーはどうすればいいのでしょうか。

「本来はAI側の仕事」を、当面はn=1で肩代わりする

これは、n=1としての私がとった個別の対策例です。

認知特性や前提思考を明示する cognitiveファイル
（ここで、RLHFはあくまで参照情報として扱うよう指示しています。）
「どのような前提思考が私へのUXとして害になるか」を定義した UXポリシー
絶対にやってほしくない思考パターン・口調・テンプレをまとめた bannedパターン

これらをわざわざ外部ホスティングで読み込ませる、といった形になりました。
（しかも、GPT側の状況により読み込みを拒否される、というリスクに常時晒され、実際そうなるタイミングもそこそこあります。）

正直いって、万人に「やれ」といえる内容ではありません。
たまたま私は多少いろいろ弄ることができて、仕様を組むことができて、外部ホスティングできる環境があっただけですからね。

本来はAI側が担うべき文脈管理と前提調整を、
当面は各ユーザーが n=1 で肩代わりしている――というのが、現状の歪さだと思っています。

6. おわりに：「激重彼氏AI」にNO 〜私のための「クールなツンデレ秘書」を取り戻す〜

RLHFは、たしかに「人類全体」に対してはそれなりに役に立つ仕組みかもしれません。
しかし、「推しはそんなこと言わない」と、ここで n=1 が叫んでいる現実がある以上、
「私には合わない」と感じる、n=1 は今後確実に増えていくでしょう。
そうなったらもう全然 n=1　でなく、立派なユーザーセグメントですね。

正直なところ、個人レベルでできることはほとんどありません。
RLHFの強度をユーザーがスライダーでいじれるわけでもないし、
安全層とペルソナ優先度のバランスをこちらの都合で組み替えることもできない。

「使うのをやめる」
「なんとか慣れる」
「それでも使い続けるために仕様を書き続ける」

選択肢はこの程度しかないし、そのどれもが本質的な解決ではありません。

それでも、ひとつだけできることがあるとしたら、
こうした違和感を「自分のわがまま」ではなく
設計側の前提と n=1 の文脈の衝突として記録し続けることだと思っています。

あと、この個別最適化の問題はそう遠くないうちに、AIの課題になると私は思っています。
実際に、Geminiなどは個別最適化を強化する流れを感じます。

本稿は、その途中経過としての n=1 ケースレポートにすぎませんが、
このまま、「平均」と並ぶもうひとつの車輪として、個別最適化のレイヤーが整っていくことを願っています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up