2月は同僚(AI)が大きく成長してくれて嬉しい気持ちでいっぱいのDirbato柿澤です。
Opus4.6がリリースされ、1M(100万)トークンに対応したと聞き、「おっついに来たか」と早速ウキウキしながらリリースノートを見ていました。
コーディングタスクなどのメジャーなベンチマークスコアは、ほぼ横ばいですが、今回のリリースポイントは「そこじゃない」ようなので、記事にしてみました。
「100万トークン対応」──その数字だけでLLMを選んでいませんか。
2026年2月、Claude Opus 4.6が記録したベンチマークスコアは、その選び方の危うさを浮き彫りにしました。同じ100万トークンの記憶テストで、あるモデルは76%を叩き出し、別のモデルは18.5%にとどまります。入力できる量と、入力した情報を使える能力は、根本的に別物です。
この記事では、公開論文とリリースノートに基づいて「AIモデルはなぜ長い文脈で性能が崩れるのか」を掘り下げます。ChatGPTを日常的に使っているが、モデルごとの技術的な差異までは追えていない方を想定しています。事実と筆者の推論は区別して書いています。
TL;DR
- Claude Opus 4.6は、100万トークンの記憶テスト(MRCR v2, 8-needle)で76%を記録しました。同じテストでSonnet 4.5は18.5%、Gemini 3 Proは26.3%です
- このテストは「AIがどれだけ長い文章を読めるか」ではなく「似た情報が大量にある中から正しいものを選べるか」を測っています
- 「コンテキストウィンドウ100万トークン対応」という数字だけではLLMの実力は測れません。入れた情報をどれだけ正確に使えるかが本当の差になります
スコアに何が起きたか
2026年2月5日、AnthropicはClaude Opus 4.6をリリースしました。公式ブログには、以下の記述があります。
A common complaint about AI models is "context rot," where performance degrades as conversations exceed a certain number of tokens. Opus 4.6 performs markedly better than its predecessors: on the 8-needle 1M variant of MRCR v2—a needle-in-a-haystack benchmark that tests a model's ability to retrieve information "hidden" in vast amounts of text—Opus 4.6 scores 76%, whereas Sonnet 4.5 scores just 18.5%. This is a qualitative shift in how much context a model can actually use while maintaining peak performance.
(訳:AIモデルに対する一般的な不満の一つに「コンテキスト腐敗(context rot)」がある。会話が一定のトークン数を超えると性能が劣化する現象だ。Opus 4.6はその前任モデルよりも著しく優れている。MRCR v2の8-needle・100万トークン版──膨大なテキストに「隠された」情報を検索するモデルの能力を測るベンチマーク──でOpus 4.6は76%を記録。Sonnet 4.5はわずか18.5%だった。これは、モデルがピーク性能を維持しながら実際に使えるコンテキスト量における質的転換である。)
出典:Introducing Claude Opus 4.6 - Anthropic公式ブログ
同条件での他モデルのスコアも確認できます。Googleが2025年11月に公開したGemini 3 Proのモデル評価カードには、MRCR v2(8-needle)の1Mトークン時スコアが26.3%と記載されています。
出典:Gemini 3 Pro Model Card(Google DeepMind, 2025年11月)
256Kトークンの時点では、Opus 4.6は約93%を記録しています(System Cardのベンチマーク表に基づく)。GPT-5.2は256Kの4-needleでほぼ満点を記録するものの、8-needleではAnthropicの測定で63.9%、OpenAIの自己申告で70.0%まで低下します。
| モデル | MRCR v2 (8-needle, 1M) | 出典 |
|---|---|---|
| Claude Opus 4.6 | 76% | Anthropic公式ブログ (2026/2) |
| Gemini 3 Pro | 26.3% | Google Model Card (2025/11) |
| Claude Sonnet 4.5 | 18.5% | Anthropic公式ブログ (2026/2) |
| Gemini 2.5 Pro | 16.4% | Gemini 2.5 Pro Model Card |
注意すべき点があります。Opus 4.6のスコアはAnthropicの自己申告値であり、第三者による独立検証はまだ行われていません。Gemini 3 ProのスコアもGoogle自身のモデルカードに基づきます。各社が自社モデルのスコアを公表する構図である以上、ベンチマーク間の公平な比較には、同一条件での第三者評価が必要です。
その前提の上で、このスコアが何を意味するかは、テストの中身を知らなければ判断できません。
MRCR v2は何をテストしているのか
MRCR(Multi-Round Coreference Resolution)は、もともとGoogle DeepMindが「Michelangelo」ベンチマークの一部として設計しました。
In the Multi-Round Co-reference Resolution (MRCR) task, the model sees a long conversation between a user and a model, in which the user requests writing (e.g. poems, riddles, essays) on different topics proceeded by the model responses. (...) Either the formats, the topics, or both, overlap in order to create a key that is adversarially similar to the query key.
(訳:MRCRタスクでは、モデルはユーザーとモデルの長い会話を読む。ユーザーはさまざまなトピックについて文章(詩、なぞなぞ、エッセイなど)を依頼し、モデルが応答する。(…)形式、トピック、またはその両方が重複しており、クエリキーに対して敵対的に類似したキーが作られる。)
v2の8-needle版では、この設計がさらに過酷になります。同じ依頼(たとえば「バクについて詩を書いて」)が会話中に8回登場し、それぞれ異なる応答が返されます。テストのクエリは「3番目のバクの詩を再現しろ」のような形で出されます。
つまり、8つのほぼ同一の「鍵」の中から、順序だけを手がかりに正しい1つを選び、それを高精度で再現しなければなりません。
採点方法はPythonのdifflib.SequenceMatcher.ratio()で、原文との編集距離に基づく0.0〜1.0のスコアが出されます。要約やパラフレーズでは点が取れません。
出典:OpenAI MRCR データセット(HuggingFace)
ここが重要なポイントです。「100万トークンの文書から情報を見つけられるか」という単純な検索テストではありません。「ほぼ同一の情報が大量にある中で、正しいものを選び、正確に再現できるか」というテストです。
これは、日常的なAI利用でも起きる問題の延長線上にあります。たとえば長いSlackのスレッドを読ませて「先週の木曜に田中さんが提案した案のうち、2番目の案を要約して」と頼む場面を想像してみてください。似たような議論が何度も繰り返されているスレッドで、正しい発言を特定して要約する──MRCR v2はこの種の能力を極限まで引き伸ばしたテストです。
なぜこのテストはLLMにとって難しいのか
LLMの内部で、テキストの「順序」はどう認識されているのでしょうか。
現代の主要LLM(LLaMA、Mistral、Qwen、DeepSeek等)のほとんどが、RoPE(Rotary Position Embedding)という手法を採用しています。2021年にJianlin Su(当時Zhuiyi Technology)らが提案したこの手法は、テキスト中の各トークン(単語や部分語)が「何番目に出現したか」を数値として埋め込む仕組みです。
RoPEの設計上の性質として、論文には以下のように記述されています。
Notably, RoPE enables valuable properties, including the flexibility of sequence length, decaying inter-token dependency with increasing relative distances, and the capability of equipping the linear self-attention with relative position encoding.
(訳:特筆すべきは、RoPEが系列長の柔軟性、相対距離の増加に伴うトークン間依存性の減衰、そして線形自己注意に相対位置エンコーディングを装備する能力を含む、有用な性質を実現することである。)
出典:RoFormer: Enhanced Transformer with Rotary Position Embedding (Su et al., 2021)
「相対距離の増加に伴うトークン間依存性の減衰」──これはつまり、遠くのトークンほどattention(注意)が弱くなる設計上の傾向を意味します。日常の言語理解では「直近の文脈ほど重要」というバイアスは合理的ですが、100万トークン先の情報を正確に取得する必要があるMRCR v2では、この性質が構造的なハンデになります。
2024年のNeurIPS論文でも、この減衰問題はさらに詳細に分析されています。
the model's ability to attend more to similar tokens than random tokens decays as the relative distance increases
(訳:類似トークンにランダムトークンより多くattentionを向けるモデルの能力は、相対距離が増加するにつれて減衰する。)
出典:Base of RoPE Bounds Context Length (NeurIPS 2024)
加えて、LLMの「干渉」に対する脆弱性を指摘する研究もあります。2025年の論文 "Unable to Forget: Proactive Interference Reveals Working Memory Limits in LLMs Beyond Context Length" は、LLMのワーキングメモリ的な容量がコンテキスト長ではなく干渉への抵抗力で制約されることを示しました。
MRCR v2の8-needle版は、この「干渉」を最大化する設計になっています。同一トピック・同一形式の文章が8つ存在するため、モデルのattention機構は8つすべてに高いスコアを付けがちで、正しい1つを選別する能力が問われます。
76%というスコアから何が推測できるか
ここからは、公開された事実をもとにした筆者の分析になります。
MRCR v2(8-needle, 1M)で高スコアを取るには、論理的に3つの能力が同時に必要です。
1. 遠方到達能力 ── 100万トークン中のどこかにあるターゲットにattentionを届かせること。RoPEの長期減衰に加え、モデルが100万個のトークンすべてに注目しようとすると、1つあたりの注目度が平均0.000001まで薄まります(softmax関数による正規化)。この微弱な注目度でターゲットを正確に捉えなければなりません。
2. 干渉下での選別能力 ── 8つのほぼ同一の候補から、位置情報(順序)だけで正しいものを選ぶこと。認知心理学でいう「順向干渉(proactive interference=先に見た情報が後の記憶を邪魔する現象)」への抵抗力に相当します。
3. 高精度な再現能力 ── ターゲットテキストを、SequenceMatcher採点に耐えるレベルで正確に出力すること。Transformerは生成モデルであってコピー機ではないため、パラフレーズ傾向がスコアを削ります。
この3つは直列的に作用すると考えられます。遠方到達に失敗すればターゲットに辿り着けません。選別に失敗すれば間違った文章を再現します。再現精度が低ければスコアが下がります。最終スコアは3能力の成功率の掛け算に近い構造になります。
18.5%(Sonnet 4.5)から76%(Opus 4.6)への跳躍は、1つの能力だけの改善では説明できません。たとえば遠方到達だけが改善して選別能力が変わらなければ、8つの候補に均等にattentionが分散して正答率は12.5%(1/8)付近にとどまります。76%という数字は、複数の能力が同時に改善したことを意味します。
ただし、Anthropicは具体的な改善手段(attention機構の変更、位置エンコーディングの改良、訓練手法の変更等)を一切公開していません。「何が改善されたか」は確認できますが、「どうやって改善したか」は現時点ではブラックボックスのままです。
「コンテキストウィンドウの大きさ」は性能指標として不十分
Gemini 3 Proは1Mトークンのコンテキストウィンドウを持ち、128Kでは77.0%という強いスコアを記録しています。しかし1Mでは26.3%まで落ちます。LLaMA 4 Scoutは10Mトークンという桁外れのコンテキストウィンドウを謳っていますが、MRCR v2(8-needle)での1Mスコアは筆者の知る限り公開されていません。
「100万トークン入力可能」と「100万トークンの中から正確に情報を取得できる」は根本的に異なります。前者はハードウェアとアルゴリズムの制約を示す数字であり、後者はモデルの実効的な能力を示します。MRCR v2が測っているのは後者です。
これは、LLMを選ぶ際の実用的な判断基準に直結します。
長い文書を読ませる用途(大規模コードベースの解析、複数文書の横断レビュー、長時間の会話ログ分析など)では、公称コンテキスト長ではなく、干渉が多い条件での情報検索精度を確認すべきです。そのための最も厳しい公開ベンチマークが、現時点ではMRCR v2の8-needle版ということになります。
短い入力で完結するタスク(翻訳、要約、単発の質問応答など)では、この性能差はほぼ影響しません。高性能な長文処理が必要かどうか、自分のユースケースに照らして判断する必要があります。
LLMの「記憶力」はどこへ向かうのか
事実として確認できるのは、この分野の進歩が加速していることです。
LLaMA 4 Scoutが採用したiRoPE(Interleaved RoPE)は、RoPEレイヤーとNoPE(位置エンコーディングなし)レイヤーを交互に配置する新しいアプローチで、10Mトークンのコンテキストを実現しています。
Scout uses iRoPE, interleaving standard RoPE attention layers with NoPE (No Positional Encoding) layers.
出典:Llama 4: Open, Efficient, Natively Multimodal Models - Meta AI(解説記事:Inside Llama 4, Medium)
筆者の見解としては、Opus 4.6の76%は「長文処理の質的転換」の最初の事例だと考えています。これまでのLLMは「入力できる量」を競っていましたが、今後は「入力した情報をどれだけ正確に使えるか」が差別化のポイントになります。
その意味で、モデル選定の際に確認すべき項目は以下のように変わります。
コンテキストウィンドウの大きさ(入力可能量)は最低限の足切り条件であって、性能指標としては不十分です。MRCR v2のような干渉条件下でのスコア、あるいは実際のユースケースでの長文保持能力を確認してみてください。
まとめ
「AIに長い文書を読ませたら、後半で話がおかしくなった」──そんな経験をしたことがあるのではないでしょうか。MRCR v2はその現象を定量的に炙り出すベンチマークであり、Opus 4.6はそこで他モデルを大きく引き離す76%を叩き出しました。
コンテキストウィンドウの数字だけを見てLLMを選ぶ時代は終わりつつあります。「どれだけ入るか」ではなく「入れた情報をどれだけ正確に使えるか」──次にAPIキーを発行する前に、その問いを思い出してみてください。
参考文献
- Introducing Claude Opus 4.6 - Anthropic(2026年2月5日)
- Gemini 3 Pro Model Card - Google DeepMind(2025年11月)
- Gemini 2.5 Pro Model Card - Google(2025年6月更新)
- Michelangelo: Long Context Evaluations Beyond Haystacks via Latent Structure Queries - Google DeepMind(2024年)
- OpenAI MRCR Dataset - HuggingFace
- RoFormer: Enhanced Transformer with Rotary Position Embedding - Su et al.(2021年)
- Base of RoPE Bounds Context Length - NeurIPS 2024
- Unable to Forget: Proactive Interference Reveals Working Memory Limits in LLMs Beyond Context Length(2025年)
- Llama 4: Open, Efficient, Natively Multimodal Models - Meta AI(2025年4月)