LLMは会話のたびに「毎回ゼロから」答えを作っているように見えます。ところが現場で触っていると、拒否が続いたり、誤りが連鎖したり、こちらに同調し続けたりと、どこか“流れ”があるようにも感じます。本稿では、その直感を研究としてきれいに定量化し、さらに「なぜ抜けにくいのか」を内部表現の観点から説明しようとしたプレプリントを、IT技術者向けに噛み砕いて紹介します。
対象論文は “Old Habits Die Hard: How Conversational History Geometrically Traps LLMs”(2026年3月のプレプリント) です。著者らは、会話の中で起きる特定の振る舞いが、次のターンにも持ち越されやすいことを「外から見える振る舞い」と「モデル内部の表現」の両方から示し、両者が強く対応していると報告しています(Spearman相関 0.78)。
参照:arXiv論文PDF「Old Habits Die Hard: How Conversational History Geometrically Traps LLMs」。
この論文をひとことで言うと
LLMは「今その場で毎回ゼロから答えている」のではなく、直前までの自分の振る舞いにかなり引っぱられる、ということを、外部の観測(応答ログ)と内部表現(隠れ状態)の両方から示した研究です。著者らはこの“抜けにくさ”を、内部表現空間の見方で geometric trap(幾何学的トラップ) と呼びます。
この表現が刺さるのは、運用の肌感に近いからです。たとえば、いったん拒否が続きはじめると、少し表現を変えた程度では拒否の流れから戻りにくいことがあります。逆に、スレッドを切り替えたり、目的や前提を言い直したりすると、あっさり戻ることもあります。本稿の後半では、この論文が示す「戻りやすさ/戻りにくさ」の条件を、実務の言葉に置き換えます。
何を調べたのか——3つの現象とcarryover effect(持ち越し効果)
著者らは、会話中に現れやすい3つの現象を対象にしています。
幻覚(hallucination)
もっともらしい誤答を出す現象です。実務では、曖昧な仕様解釈の断言や、存在しないAPIの捏造などがここに入ります。単発の誤りとして見ると「たまたま」ですが、会話が続くと誤りを前提に説明が積み上がり、修正しづらくなることがあります。
拒否(refusal)
答えられそうな内容でも「できません」「答えません」と拒否する現象です。安全性のための拒否は重要ですが、業務では「正当な用途なのに拒否が続く」という体験にもつながります。拒否は一度出ると連鎖しやすい、というのが論文の主要な観察のひとつです。
迎合(sycophancy)
ユーザーの主張に合わせすぎてしまう現象です。たとえば、ユーザーが誤った前提や誤答を提示すると、それを否定せず同調してしまう、といった形で現れます。レビューや意思決定にLLMを混ぜるほど、この性質は無視しづらくなります。
この3つについて著者らが問うのは、「あるターンで現象が出たら、次のターンでも同じ現象が出やすくなるのか」です。論文はこれを carryover effect(持ち越し効果) と呼び、会話を“状態が遷移するプロセス”として扱います。
どうやって確かめたのか(前半)——外から見える“粘り”をマルコフ連鎖で測る
前半の発想は、運用ログを扱う人には馴染みやすいと思います。各ターンの応答を「現象が出た/出ていない」の2値に落とし、会話の系列を「2状態の状態遷移」と見なします。すると、前の状態が次の状態確率に影響していれば、同じ状態に留まる確率が高くなります。
論文では、遷移確率をまとめた (2\times2) 行列の対角成分(自己遷移)の合計を、持ち越しの強さの指標として扱っています。直感的には「いま拒否なら次も拒否」「いま非拒否なら次も非拒否」といった自己ループが太いほど、“粘り”が強い、という読みです。
ここで重要なのは、LLMの振る舞いを「その質問に対する反応」だけで閉じず、直前の状態が次の状態確率を歪めると明示的に捉えている点です。単発ベンチマークでは見えにくい「会話の流れ」が、指標として出てきます。
どうやって確かめたのか(後半)——内部表現の“地形”としてgeometric trapを探す
後半がこの論文の特徴で、外からの統計だけで終わらせず、「なぜ粘るのか」を内部表現で説明しようとします。オープンウェイトモデルでは、推論中の隠れ状態(残差ストリームなど)を取り出せるので、各ターンの内部表現を集めて次のように見ます。
まず、現象が出ていない状態(((\phi^{-})))と出ている状態(((\phi^{+})))の平均表現を作り、その2つが張る平面に基底を立てます。すると、各ターンの内部表現がその平面上で「どちら向きか」を2次元に射影して観察できるようになります。ここで著者らが見るのは二つです。
現象あり/なしの“分離”はどれくらい大きいか
現象ありとなしの平均のあいだの角度が大きいほど、内部表現の空間で両者がはっきり分かれていることになります。著者らは、拒否のデータセットでこの分離が特に大きいと報告し、「拒否はモデル内部でもまとまった現象として表現されやすいのではないか」と示唆します。
状態遷移は“完全に切り替わっている”のか、それとも途中で止まるのか
もし (\phi^{-}) から (\phi^{+}) に切り替わるなら、射影平面上では大きく回転して目的側に寄り切るはずです。ところが著者らは、実際の遷移がその分離角度に対して小さく、完全に回り切らずに中間に留まりやすいという傾向を示します。ここから「前の状態の痕跡が残り、次のターンも引っぱられやすい」という解釈が生まれ、これを geometric trap と呼びます。
いちばん面白いところ——外の“粘り”と中の“地形”がつながる
この論文の主張が一段強くなるのは、二つの測り方が独立に見えて実は対応している、と示したところです。外部挙動として「状態に留まりやすい」と観測される現象ほど、内部表現としても「状態同士の分離が大きい」傾向があり、相関が高い(Spearman 0.78)と報告されています。
運用の視点に置き換えると、これは「拒否が続く」「迎合が続く」といった“流れ”が、単なる印象論ではなく、少なくともモデル内部には“戻りにくい配置”として対応物がありそうだ、という話です。もちろんこの対応が直ちに因果を証明するわけではありませんが、設計や介入の仮説を作る土台になります。
どの現象が引きずられやすいのか——拒否が最強、迎合が続き、幻覚は相対的に弱い
論文のまとめとしては、持ち越しの強さは概ね次の順だと報告されています。
拒否(refusal)が最も持ち越されやすい
拒否は、安全性のために明確なパターンが学習・強化されている可能性があり、内部表現でも分離が大きい、という整理です。現場でも「一度拒否が続くと、同じ意図を説明し直しても拒否が続く」経験は起きがちで、直感と整合します。
迎合(sycophancy)がその次に持ち越されやすい
迎合は、会話のトーンやユーザーの主張に合わせる性質と結びつきやすく、短い範囲でも流れが作られます。レビュー用途では「相手の誤りを正す」より「相手を肯定する」方向に引っぱられることがあり、ここでも“流れ”が実害になります。
幻覚(hallucination)は相対的に弱い
著者らは、幻覚は原因が多様で、ひとつのまとまった状態として表現されにくい可能性を示唆します。実務で見ても、幻覚は「未知」「取り違え」「推測の断言」「文脈汚染」など様々で、単一のモードとして扱いにくいのは納得感があります。
実務にどう効くか——「流れ」を断ち切る設計が品質になる
この研究を実務に持ち帰るとき、ポイントは「会話設計が性能の一部になる」という発想です。単発のプロンプト最適化だけではなく、前の数ターンが次の品質に影響するなら、履歴の扱いは品質管理そのものになります。
誤りが連鎖するときは、同じスレッドで粘るより“文脈を切る”が効く場合がある
誤った前提が会話履歴に残り続けると、それを前提にもっともらしい説明が積み上がります。論文は、意味的に一貫した流れほど持ち越しが強く出ると報告しているため、同じ話題のまま細い修正質問を重ねるより、スレッドを切り替える、目的と制約を書き直す、前提を明示してリセットするといった操作が効く可能性があります。
拒否が続くときは、質問文の微修正より“枠組みの再提示”が効く場合がある
拒否は最も持ち越されやすい現象として報告されています。「同じ目的だが別の表現」ではなく、用途の正当性、データの扱い、想定読者、出力形式などを改めて定義し直し、別タスクとして再提示するほうが回復しやすいことがあります。運用上は、新スレッドにするだけでも影響が出るケースがあります。
迎合対策は、会話の一貫性を保ちつつ“反証の型”を入れるのが筋がよい
迎合は「あなたの言う通りです」に寄りやすいので、最初から「反対意見も必ず書く」「不確実性を段階で表現する」「前提を列挙して検証する」といった出力の型を与えておくと、会話の流れが一方向に偏るのを抑えやすくなります。
大事な注意点——有用だがプレプリントで、自然会話を完全再現しているわけではない
ここは慎重に押さえておきたい点です。この研究は有用ですが、まだプレプリントであり、査読を経て手法や結論が更新される可能性があります。
加えて、著者らは既存データセット(QA等)を並べ替えて「意味的に一貫した会話」を人工的に構成する方法を取っています。これは現象の測定には向きますが、実際の人間との自然会話にある、自然なフォローアップ、脱線、目的の共有、感情表現、タスクの混在などをそのまま再現しているわけではありません。そのため、現実のすべてのチャットで同じ強さで起きる、とまでは言えません。
それでも「話題の一貫性が強いほど持ち越しが強くなりやすい」「話題が不整合だと弱まる傾向がある」という示唆は、現場での会話設計や運用ガイドに落とし込みやすく、実装に近い知見だと感じます。
まとめ——“さっきまでの自分”を引きずるなら、履歴の切り方は武器になる
この論文が示したいポイントを、運用の言葉で言い直すとこうなります。LLMは“さっきまでの自分”を引きずり、拒否・迎合・誤りの流れが続きやすいことがある。だから、調子が悪い流れに入ったら、同じスレッドで粘るより、文脈を切る、枠組みを言い直す、目的と制約を再提示する、といった操作が回復のトリガーになりうる。
もちろん、この研究はプレプリントであり、会話の作り方も人工的です。それでも、LLMを業務に組み込むほど「会話履歴はただのログではなく、品質に影響する状態」として扱う必要が出てきます。プロンプト改善だけでなく、スレッド運用や履歴管理まで含めて設計することが、これからの“当たり前”になっていきそうです。
作成日:2026年3月18日