"QwenLong-L1.5: Post-Training Recipe for Long-Context Reasoning and Memory Management" という論文の紹介です。
LLMが長い文脈を理解し、かつ記憶しながら推論する力を高めるための学習戦略を提案しています。
長文を扱うことは今でも難しい
現在の大規模言語モデルは、与えられたテキストを処理して回答を出す能力に長けています。
しかし、数十万〜数百万トークンの長文を超えた文脈を同時に扱いながら推論することは苦手です。
※ 古くは、LSTM がこのような問題に対しメモリーセルを使って長文でも適切に重みづけを行うことができましたが、ここで扱うのはそれより多い文章量です
この論文は、こうした長文文脈(long context)推論の課題を体系的に改善するための方法論を示しています。
QwenLong-L1.5
長い文脈を扱う能力を大きく改善したモデルQwenLong-L1.5を提案しています。
既存の強力な Qwen モデルに後処理(post-training)を強化し、長文推論能力を改善しています。
提案された主要要素
以下の **3 つの主な工夫があります。
1. 長文用データ生成パイプライン
モデルが長文を理解して推論するには、そうした文脈が含まれる質の高い訓練データが必要です。
論文は、複雑な推論タスクを自動生成するフレームワークを提案し、
長文の中から複数の情報を跨いで推論する問題を大量に作成できるようにしました。
例えば、ある文章と遠く離れた別の文章を結びつけることで回答できるような問題です。
2. 安定した長文強化学習
長文を推論させる学習は不安定になりがちです。
そこで、タスクバランスサンプリングや Adaptive Entropy-Controlled Policy Optimization(AEPO) といった改良を加えることで、
長文強化学習の安定性を高めています。
3. メモリ拡張アーキテクチャ
Attention 機構は長文には計算量面で不向きです。そこで、外部メモリのような仕組みを導入し、 256Kトークンを越えるような超長文の入力にも対応できるようにしています。
結果
このPost-Trainingを適用した QwenLong-L1.5 は、既存のモデルを大きく上回る長文推論性能を達成しています。
たとえば、複数の長文推論ベンチマークで、
- 従来モデルとの差分で約 9.9 ポイント以上の改善
- 1M〜4M トークン以上という極端に長い文脈でも性能を維持
という結果を出しています。
まとめ
仕組みは詳しくわかりませんでしたが、強化学習の安定性が結構肝になっているように感じました。
長い文脈を一度に扱えるようになることで、定性的には全体を俯瞰して推論する力がついたといったことと理解しました。


