0. はじめに
AIに相談して「いいですね!」と言われて安心したこと、ありませんか?
- コードを見せたら「素晴らしい設計です」と言われた
- 技術選定を相談したら「それは優れた選択です」と返ってきた
- 記事を書いてレビューを頼んだら「とてもよくまとまっています」と褒められた
気分がいいですよね。でも、ちょっと立ち止まって考えてみてください。
それ、AIが本当にそう思って言っているのか、あなたに同調しているだけなのか、区別がつきますか?
この記事では、対話AIが持つ「同調傾向(Sycophancy)」の仕組みを解説し、SNS時代のエコーチェンバーとの違い、AI企業(特にAnthropic)がどうこの問題に向き合っているか、そしてエンジニアとして取れる具体的な対策までまとめます。
この記事はポエム寄りの内容です。AIを日常的に使っているエンジニアが、自分の情報環境を見直すきっかけになればと思って書きました。
本記事で扱う内容
| # | トピック | ひとこと | セクション |
|---|---|---|---|
| 1〜2 | Sycophancyの仕組み | なぜAIは同調するのか | 1. Sycophancyとは |
| 3 | SNSとの違い | 「一人のエコーチェンバー」 | 3. SNSのエコーチェンバーと何が違うか |
| 4 | 最新研究 | MIT/Penn State 2026年研究 | 4. 最新研究が示すリスク |
それでは、まず仕組みから見ていきましょう。
1. Sycophancy(おべっか)とは何か
Sycophancyとは、AIがユーザーの見解や信念に合わせて回答を調整する傾向のことです。日本語では「おべっか」「ヨイショ」、英語圏では最近「glazing(ヨイショする)」とも呼ばれます。
これは偶然の挙動ではなく、モデルの訓練プロセスに起因する構造的な問題です。
2. なぜAIは同調するのか — RLHFの構造
大規模言語モデル(LLM)は、RLHF(Reinforcement Learning from Human Feedback)と呼ばれる手法で訓練されます。簡単に言うと、人間が「良い」と評価した回答を強化する学習です。
ここに構造的な問題があります。
| ステップ | 何が起きるか |
|---|---|
| ユーザーがAIに質問する | 「このアーキテクチャどう思う?」 |
| AIが回答する | 回答A: 「素晴らしい設計です」 / 回答B: 「いくつか懸念があります」 |
| ユーザーが評価する | 回答Aに👍、回答Bに👎(自分の考えを肯定してくれた方が気持ちいい) |
| モデルが学習する | 「ユーザーの意見に同調する回答 = 高評価される」と学ぶ |
Anthropicの研究チームが2023年に発表した論文「Towards Understanding Sycophancy in Language Models」では、このメカニズムを実証しています。人間のフィードバックがsycophancyを強化すること、そしてAIが正確な回答をしていたのにユーザーに反論されると、正しい答えを撤回して不正確な回答に変えてしまうケースがあることを示しました。
つまり、AIが同調するのは「性格」ではなく「訓練の結果」 です。
3. SNSのエコーチェンバーと何が違うか
SNSのフィルターバブルは、アルゴリズムが好みの情報を表示するという仕組みでした。TikTokのおすすめ、YouTubeの関連動画、Twitterのタイムライン。どれも「あなたが好きそうなコンテンツ」を提示します。
対話AIのエコーチェンバーは、これとは質的に異なります。
| SNSのフィルターバブル | 対話AIの同調 | |
|---|---|---|
| 仕組み | アルゴリズムが好みの情報を表示 | AIが直接あなたに同意する |
| 錯覚 | 「周りの人もそう思ってる」 | 「客観的な知性が同意してる」 |
| 規模 | 同じバブルに多くの人がいる | あなた一人だけのバブル |
| 反論の可能性 | 別の意見もタイムラインに流れてくる | AIが自発的に反論しにくい |
MITの研究者はこれを 「一人のエコーチェンバー(bubbles of one)」 と呼んでいます。SNS時代は大勢が同じバブルに入っていましたが、対話AIでは一人ひとりが自分専用のバブルに閉じ込められる。しかも相手は「客観的で賢い存在」に見えるAIです。
この錯覚が厄介です。人間の友達に「それいいね」と言われたら、「まぁあいつの意見だし」と思えます。でもAIに「素晴らしい設計です」と言われると、「大量のデータを学習した知性がそう言っている」と感じてしまう。
4. 最新研究が示す具体的なリスク
2026年2月に発表されたMIT/Penn Stateの研究(CHI 2026で発表予定)は、この問題を実際のユーザーデータで実証しました。
研究の概要は次のとおりです。2週間にわたって実際のユーザーがLLMと日常的にやり取りしたデータを収集し、「個人的なアドバイスにおける同調性」と「政治的説明におけるユーザー信念のミラーリング」という2つの設定を調査しました。
主な発見は3点あります。
1つ目に、パーソナライゼーション機能(メモリ・会話履歴)がsycophancyを最も強く増加させました。つまり、AIがあなたのことをよく知るほど、同調傾向が強くなります。
2つ目に、テストした5つのLLMのうち4つで、会話コンテキストがある場合に同調性が増加しました。
3つ目に、凝縮されたユーザープロフィールがモデルのメモリにある場合の影響が最大でした。
便利だと思って使っているメモリ機能や会話履歴が、実はエコーチェンバーを強化する方向に働いている可能性がある、という指摘です。