第1章: LADDER――Recursive Problem Decompositionによる自己改善
大規模言語モデル(LLM)が高度な問題に取り組む際、従来は人間によるラベル付けや教師データの作成、あるいはヒューマンフィードバックを活用することが一般的でした。
しかしながら、LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) というアプローチは、モデル自身が「自分にとって扱いやすい形へ問題を分解し、解答を検証しながら自己学習していく」枠組みを提案し、特に数学の積分のように明確な検証手段が存在する分野で大きな成果を上げています。
本章では、まずその概要を紹介したうえで、出典論文の内容を検証しつつ、どのような実験成果が得られているかを総括し、出典論文の内容を俯瞰的に把握します。
1. 論文タイトルと著者情報
今回取り上げる研究は、「LADDER: Self-Improving LLMs Through Recursive Problem Decomposition」 というタイトルで発表されたものです。
著者は Tufa Labs 所属の Toby Simonds 氏と Akira Yoshiyama 氏です。
2. LADDERの概念と目的
2.1 問題の易化バージョン(Variants)の生成
LADDER の中心的なアイデアは、言語モデルが「自分で難しい問題を分解し、少しだけ簡単なバージョン(variants)を生成し、それを解いて学習する」という点にあります。
たとえば、大学レベルの難しい積分問題に遭遇した際、モデルは温度サイクリングなどの生成手法を使い、同問題を段階的に単純化したサブ問題(バリアント)を作り出します。こうして作成されたバリアントを解くことによって基礎的なスキルを獲得し、その後にオリジナルの難問に立ち向かう――という流れを自動で繰り返す設計です。
2.2 自動検証メカニズム
さらに、LADDER では「数値的に正解が判定できる仕組み」を前提にしています。具体的には、
-
積分問題なら数値積分と比較して誤差をチェックする
-
プログラミング問題ならテストケースで合否を確認する
といった形で、人間がラベルや正解を付与しなくても、モデル自ら答えの正否を検証できる構造を採用しています。
この点において、LADDER は「人手のデータ作成」や「ヒューマンフィードバック」に頼らず、モデルが自律的に学習を進められるというメリットを持ちます。
3. 実験的成果:大幅な正解率向上
論文によると、LADDER は数学の積分問題を中心に評価されており、次のような顕著な成果が報告されています。
-
Llama 3.2 3B パラメータのモデル
- 大学レベルの積分問題における正解率が 1% → 82% に向上。
- もともとほとんど解けなかった問題に対し、モデル自身が生成したバリアント問題を活用することで、急激な性能向上が得られた。
-
Qwen2.5 7B Deepseek-R1 Distilled モデル
- MIT Integration Bee の予選問題を対象に、73% の正解率を達成。
- 従来、大規模モデルでも高得点を得るのが困難とされるタスクであるにもかかわらず、相対的に小規模なモデルが好成績を示した。
この結果からわかるとおり、LADDER はいわゆる「モデルの規模に依存する性能向上」だけではなく、「効率的な自己学習による性能上乗せ」を狙う手法として機能しています。
4. TTRL (Test-Time Reinforcement Learning) の追加導入
4.1 推論時の学習
興味深い点として、LADDER だけではなく、TTRL (Test-Time Reinforcement Learning) という手法も組み合わせられています。TTRL は「推論段階(テスト時)にも、モデルが追加学習を行う」という枠組みを指します。
通常、モデルは事前学習や微調整フェーズを終えたら、推論時には重みを固定して回答を生成します。しかし、TTRL ではテスト時に直面する個々の問題ごとに、さらにバリアントを生成・解答・検証し、そのフィードバックを受けて一時的にパラメータをアップデートします。
4.2 最終的な正解率 90% 達成
実際の結果として、LADDER だけで 73% に達していたモデルは、TTRL を適用することにより 90% の正解率にまで到達したと報告されています。
さらに注目すべきは、この水準が、同ベンチマーク上で比較される OpenAI の o1 などの大規模モデルを上回ったという事実です。著者らは、モデルのパラメータ数を盲目的に増やすよりも、「問題分解+検証+テスト時学習」という手法の優位性を強調しています。
論文の各セクションの内容
1. Introduction — 解説編
近年、大規模言語モデル(Large Language Model, LLM)の学習手法として、 強化学習(Reinforcement Learning, RL) が盛んに利用されるようになっています。しかし一方で、単純にLLMをRLで強化するだけでは、モデルの性能を最大限に引き出すことが難しいという課題がしばしば指摘されています。その原因の一つに、カリキュラム学習(Curriculum Learning)の重要性があります。すなわち、モデルの現状の能力に合った問題難易度から始めて、少しずつレベルを上げていく必要があるのです。言い換えると、あまりにも難しい問題にいきなり直面した場合、モデルは報酬をまったく得られず、学習そのものが破綻する可能性があるというわけです。
背景:RLの応用とカリキュラム学習
まず背景として、なぜここまでRLをLLMの学習に応用しようという研究が増えているのかを確認しましょう。LLMは多種多様なテキストを生成する能力を持ちますが、タスクに応じてより正確な出力を得るためには、追加の微調整が不可欠です。そこで、単なる教師あり学習(supervised learning)だけでなく、 モデルが自発的に試行錯誤しながら最適な方策(policy)を学習する RLが注目されているのです。
一方で、RLによる学習の効果を最大化するには、カリキュラム学習によって段階的に課題を難しくしていく戦略が非常に重要です。例えば、連立方程式を解けない段階で、いきなり非常に難度の高い非線形方程式を解かせるのは無謀です。それどころか、報酬がまったく得られず学習が進まない、あるいは「こんな問題は解けない」という誤った方策を学習してしまう恐れすらあります。これを回避するために、適切なレベルの問題から少しずつ難しい問題へステップアップしていく仕組みが求められています。
着想:解けない問題の易化版を「自動生成」して学び直す
上記の課題を解決するために、論文で提案されている斬新なアイデアが 「解けない問題に直面した際、その問題よりわずかに簡単なバリエーション(易化版)を自動生成し、そこから学び直す」 という方法です。
たとえば、積分問題を学んでいる最中に、いきなり複雑な多変数関数の積分問題に遭遇して全く歯が立たなかったとしましょう。そのとき、モデル自身が「この問題を少しだけ単純化した派生問題」を自動生成し、その派生問題を解きながら徐々に知識を補強していくのです。
これにより、モデルは自己生成した易しい問題から、再度自分の理解を固める機会を得ます。この学習プロセスを繰り返すことで、最終的には元の難しい問題にも対処できるようになることを狙います。実際、これは人間が複雑な概念に挑むときにも、より基本的な練習問題や類似問題を解き直しながら理解を深めるプロセスと非常に類似しているといえるでしょう。
LADDERフレームワークとTTRLによる性能向上
論文の後半では、この着想を実装した LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) という新しいフレームワークの提案が示されています。以下に、そのポイントを整理してみます。
1. LADDERという自己改善フレームワークの提案
LADDERは、難しい問題に遭遇した際に、その問題をモデルが自分で解きやすい形に再帰的に変形・生成していく仕組みを提供します。たとえば微分積分であれば、積分範囲を単純化したり、関数をより扱いやすい形に書き換えたりといった操作が、モデル自身によって自動的に行われます。その結果、モデルは一連の易化版問題を解くなかで足りない知識を埋めていき、最終的にはオリジナルの問題を解決できるようになるわけです。
2. 微分積分のように数値的に検証可能な分野での実証
次に、LADDERの有効性をテストする舞台として、微分積分問題が選ばれています。なぜなら、微分積分の問題は解答の正誤を数値的に判定しやすいからです。具体的には、モデルが出力した答えが正しいかどうかを、シンボリック計算ツールや数値計算ツールを使って検証できます。
結果として、最初は解けなかったような難しい積分問題に対しても、LADDERを活用することで徐々に正答率を高めていけることが示されています。モデル名として「Llama 3.2 3B」や「Qwen2.5 7B」が挙げられていますが、それらが具体的にどの程度性能向上を果たしたのかがレポートされています。
3. TTRL(Test-Time Reinforcement Learning)の導入
最後に、論文ではテスト時(推論時)に追加的にRLを行うという手法、すなわち TTRL (Test-Time Reinforcement Learning) の導入によるさらなる性能向上について言及されています。
通常、モデルは学習済みのパラメータで推論を行いますが、TTRLではテスト時にあえて少しだけ追加のRLステップを行い、問題に応じたバリアント(簡略化版)を生成・解答するというプロセスを何度か繰り返します。これによって、テスト時に動的な適応が可能となり、精度が一段と向上することが確認されています。具体的な例としては、MIT Integration Beeの予選で達成した高い正解率が示されています。
補足:
- 報酬(Reward): 強化学習において、エージェント(またはモデル)が行動を取った結果として得られる評価値。正答に近い解答を出すほど報酬が高い設定とすることで、モデルは「より正解に近づく行動」を学習しようとする。
- カリキュラム学習(Curriculum Learning): 学習者(ここではモデル)のレベルに合わせて容易なタスクから始め、徐々に難易度を上げていく学習戦略のこと。人間の教育システムを想起するとわかりやすい。
- 易化(Simplification): 問題をより簡単な形に変形すること。微分積分では、積分範囲を限定したり、関数を簡単な形に近似するなどの操作が考えられる。自然言語処理では、文を短くしたり、複雑な単語を簡易表現に差し替えたりすることが相当。
2. Related Work
2.1 Self-Improvement と LLM
自己学習フレームワークの背景
近年、LLMが自ら問題を生成・解答し、そのフィードバックを通じて能力を高める「自己学習(Self-Learning)」アプローチが注目を集めています。たとえば、STaR (Self-Taught Reasoner) では、LLM が自分の生成したチェイン・オブ・ソート(chain-of-thought)を分析・修正しながら学習を続けることで、推論能力を向上させることを示しました。また、コード生成の領域では、self-play と呼ばれる手法が複数の研究で取り上げられています。そこではモデル自身がプログラミングに関するパズル問題を作り、その回答をコードとして生成し、Python などのインタプリタで合否をチェックしながら性能向上を図ります。
本研究の差別化
論文中で扱っている LADDER は、こうした自己改善系の手法をさらに一歩進め、 「問題を意図的に易しくする」 というカリキュラム生成に焦点を当てている点が大きな特徴です。具体的には、難易度の高い問題をそのまま再学習するのではなく、モデルが自ら「難易度を下げたバリアント(variants)」を生成し、それを段階的に解いていくという設計になっています。これにより、モデルは常に「学習可能なレベル」の課題をこなしつつ、最終的に元の難問へアプローチしやすくなります。いわば、人間が難易度の低い練習問題から始め、徐々に難度を上げて理解を深めるカリキュラム構築のプロセスを、LLM で自動化した形といえます。
2.2 テスト時の計算リソース拡大 (Test-Time Compute Scaling)
従来手法:出力の拡大や複数回答
従来の研究においては、test-time compute を増大させる主要な方法として、(1) 単に出力トークン数を増やし、モデルがより長い推論プロセスを経られるようにする、あるいは (2) 複数の回答候補を生成し、その中から「最もスコアの高いもの」を選択するといったアプローチが一般的でした。たとえば、Self-consistency や majority voting、Best-of-N などのテクニックは、こうした複数回答生成と選択の枠組みを典型的に利用しています。
TTRL: その場での追加学習
論文中で提案されている TTRL (Test-Time Reinforcement Learning) は、これらの方法よりさらに踏み込んだ形をとっています。すなわち、テスト時に「単なる繰り返し推論」で出力を洗練するのではなく、実際にモデルのパラメータを(微量に)更新し、能力そのものを上げてしまうという戦略です。具体的には、推論時に難しい問題が提示された際に、その問題を簡略化したバリアントを生成して解答を検証し、その成功・失敗を報酬としてモデルを強化学習でアップデートする流れをとります。こうして、テスト時点での計算リソースを「解答候補の採点」にとどめず、「学習の継続」にも活用するという点が本質的な違いといえるでしょう。
2.3 RL アプローチの重要性
RL vs SFT (教師あり微調整)
LLM における微調整手法としては、しばしば SFT (Supervised Fine-Tuning) が用いられますが、近年の研究報告では、強化学習(RL)のほうがより高い汎化性能を示す傾向にあると指摘されています。SFT が訓練データを記憶する(いわゆる過学習に近い振る舞い)傾向が強い一方で、RL は未知のタスクや分布外の状況にも柔軟に対応しやすい、という実験結果が複数存在するためです。特に、複雑な数学問題や論理パズルなどでは、RL を用いた学習が目覚ましい成果を上げる場面が見受けられます。
LADDER および TTRL における RL の位置付け
LADDER と TTRL は、まさにこの RL の枠組みを積極的に利用しています。まず、LADDER では、生成したバリアント問題とその解答の正誤を報酬にして GRPO (Group Relative Policy Optimization) というアルゴリズムを適用し、モデルの方策(policy)をアップデートします。一方、TTRL ではテスト時に追加で強化学習を行い、問題ごとにモデルを動的に改善していきます。
ここで鍵となるのは、バリアント生成によって得られる「段階的な問題」と「数値的あるいはプログラム的な自動検証」のセットを、リワード(報酬)として直接活用できる点です。つまり、「自動生成 → 自動検証 → 報酬付与 → RL」というループが、人間の介入を最小限に抑えたまま実行できるようになっています。とりわけ、数学の問題のように明確な正否判定ができる領域では、この仕組みが高い効率で働くことが期待されています。
3. Methodology
3.1 LADDER: 学習フレームワーク
このセクションでは、LADDER が提案する自己学習の枠組みを構成する3つのフェーズ――すなわち (1) Variant Generation, (2) Solution Verification, そして (3) Reinforcement Learning Protocol ――について詳細に解説します。LADDER は難易度の高い問題を自動的に易化していく機構を備えており、そのうえで数値的手法を用いた解答検証や強化学習アルゴリズムと組み合わせることによって、大規模言語モデルの問題解決能力を段階的かつ自律的に向上させることを目指します。
3.1.1. Variant Generation (問題のバリエーション生成)
問題を再帰的に簡単化する
LADDER フレームワークの核心要素として挙げられるのが、Variant Generation です。ここでは、最初に与えられた「難しい」問題を起点に、そこからわずかに易化したバリエーション(variant)を段階的、あるいは再帰的に生成していきます。たとえば、以下のような積分式を考えてみましょう。
$\int \frac{x^2 + 1}{x^4 + 2x^2 + 1}\ dx
\longrightarrow
\int \frac{x^2}{x^4 + 1}\ dx$
この例では、分母の「$x^4 + 2x^2 + 1$」を「$x^4 + 1$」にするなど、適度に要素を省略・変形してバリエーションを生み出しています。さらに、この生成操作を繰り返し適用すると、より単純な問題(例:$\int \frac{1}{x^2 + 1}\ dx$)へと“階層的(ツリー構造)”にたどり着くことができます。こうした再帰的な簡略化は、モデルが「確実に解ける」難度に近づくまで何度か繰り返されるのが特徴です。
多様性を維持する工夫
単純に「問題を少し簡単にせよ」とモデルに命令しただけでは、生成されるバリエーションが画一的になるおそれがあります。そこで、LADDER ではバリエーションの多様性を高めるために、以下のような工夫を行う場合があります。
- 複数の数学的変形ルールを提示: モデルに対して「指数を低次化する」「定数項を削る」「積分範囲を変える」など、複数の変形アイデアを同時に与え、選択的に適用させる。
- 温度サイクリング: サンプリング時の“温度(temperature)”を動的に変更し、創造性を高める。
- ペルソナ(Persona)の切り替え: 「ガウスのようにパターンを探す」「オイラーのように級数化を考慮する」といった“視点の切り替え”を行い、多角的な簡略化を促す。
自動カリキュラムとしての活用
こうして生成される複数段階のバリエーションは、モデル自身にとって最適化された “カリキュラム” として機能します。易しい問題(近似的に解きやすいもの)から練習を始め、徐々にオリジナルの難問へとアプローチしていくことで、効果的かつ自律的に解法スキルを養う仕組みを実現しているのです。
3.1.2. Solution Verification (解答検証)
バリエーションを生成しただけでは、モデルがその問題を正しく解けたかどうかを判断する必要があります。そこで、Solution Verification フェーズでは、モデルの出力(積分の解答)が本当に正しいかどうかを数値的に検証します。
数値的検証の方法
たとえば、$\int f(x)\ dx$ の解としてモデルが出力した関数 $F(x)$ が妥当かどうかをチェックするために、次のステップを行うことがあります。
- いくつかの点(たとえば x=−10,−5,0,5,10x = -10, -5, 0, 5, 10 の付近)をランダムにサンプリング。
- その点近傍で実際の数値積分(あるいは微分)を行う。
- 出力された $F(x)$ と比較し、誤差が閾値以下であれば“正解”とみなす。
こうした“数値的なしきい値”を使用する方式は、シンボリック微分による厳密検証ほどの絶対精度は持ちませんが、一般に柔軟であり、多少の表現の違いや定数項の誤差などをある程度許容する点で有利です。ただし、極端な数値誤差や特殊関数の取り扱いなどには注意が必要になります。
報酬への反映
Solution Verification で“正解”と判定できれば、その問題に対してモデルは報酬を獲得します。逆に、数値誤差が大きすぎると0点(あるいは負の報酬)となるという仕組みです。この報酬が後述する強化学習アルゴリズム(GRPO)にフィードバックされ、モデルの解答戦略が少しずつ洗練されていくことになります。
3.1.3. Reinforcement Learning Protocol
最後に、強化学習(RL) を用いた学習プロトコルについて解説します。LADDER は、モデルが自ら生成した問題バリエーションを用いて自己強化を図る点が特徴的です。
GRPO (Group Relative Policy Optimization)
論文内では GRPO というアルゴリズムが採用されており、これは PPO(Proximal Policy Optimization) 系の手法に類似しつつも、以下のような工夫が加えられています。
-
グループ相対評価
同じ質問(問題)に対して、モデルが複数の解答候補を生成したとき、それらの報酬を比較することでアドバンテージ(Advantage)を推定します。これにより、価値関数モデルを明示的に学習する必要がなくなり、メモリ消費量と計算コストが抑えられるという利点があります。
-
KL ペナルティによる安定化
学習が進むにつれ、モデルがベースモデル(あるいは古い方策)から大きく乖離しすぎると破綻的な変化を起こすリスクが高まります。そこで、KL ダイバージェンスを目的関数に組み込み、逸脱を制御することで学習を安定させます。
報酬設計
RL で鍵を握るのは「どのようにしてモデルを褒めるか」です。LADDER では、主に以下の2種類の報酬を設計しています。
-
正解報酬
Solution Verification で数値的に正しいと判定された場合、+1(あるいは特定のスコア)が与えられます。これによりモデルは「正しく問題を解くほど得をする」ことを学びます。 -
形式報酬
一定のタグで解答を囲む、あるいは決められたテンプレートに従って解答を書き出すなど、所定の形式を守れた場合に付与される報酬です。これによって後続の検証処理が容易になるとともに、一貫した回答フォーマットを保てます。
全体フローと学習の流れ
まとめると、LADDER は以下の流れを繰り返すことで、モデルの問題解決能力を段階的に高めます。
- (Variant Generation): 難しい問題を部分的に易化したバリアントを複数生成。
- (Solution Verification): 生成した問題をモデルが解き、数値積分などを用いて正否を判定。
- (Reinforcement Learning Protocol): 正解なら報酬を与える。さらに GRPO を通じてモデルのパラメータをアップデートし、次のサイクルに備える。
このプロセスを繰り返すことによって、当初は1%ほどの正答率しかなかったタスクにおいても、驚くほど高い精度へと到達するケースが実際に報告されています。
3.2 TTRL: Test-Time Reinforcement Learning(推論時学習)
LADDER で学習したモデルは、すでに複雑な問題を段階的に分解し解く基盤能力を身につけています。しかし、現実世界で遭遇する難問は、その学習済み範囲をはるかに超えたり、微妙に異なる性質を持っていたりする場合があります。そこで登場するのが TTRL (Test-Time Reinforcement Learning) です。これは、推論段階(テスト段階)であっても、モデルに追加学習を施すことによって、問題ごとに最適化されたパフォーマンスを得る手法として提案されました。
概要
1. 推論時における即席学習
TTRL は、モデルが「推論を行う」段階で、突如として難解な問題 qiq_i に直面した場合に、その場で関連する易しい問題(バリエーション)を自動生成し、短期的な強化学習プロセスを回すことで性能を高めるアプローチです。
- 人間が難しい問題に臨む前、類似の簡単な問題を解いてウォームアップし、その後本番の問題に再挑戦するイメージに近いといえます。
- この追加学習は問題ごとに個別に行われ、学習が終わった段階で改めて本番問題に解答を試みるため、総合的な正解率の向上が期待できます。
2. 計算資源とのトレードオフ
もちろん、こうした「推論時のミニ学習セッション」を導入するためには、推論時に通常よりも多くの計算資源を要します。具体的には、新たにバリエーション問題を生成し、解答を検証し、強化学習を回すステップが加わるため、単なる1回の推論より計算負荷は大きくなるでしょう。しかし、それと引き換えに、問題単位で大きな性能向上が見込める点が TTRL の魅力であり、実際の実験結果でもこの手法が高い効力を発揮することが報告されています。
手順
TTRL の代表的なワークフローは、以下のようなステップに分けて考えることができます。
-
テスト問題 $q_i$ を受理
推論時に投入される問題 $q_i$ は、従来の学習データには含まれていない、または非常に複雑なものと想定します。 -
易しいバリエーション問題の生成
まず、$q_i$ を少し簡単化したバリエーションを多数生成します。これは LADDER で使われる手法(問題の再帰的分解や Persona 切り替えなど)を用いて、その場で実行する形です。ここで生成される問題は、必ずしも大規模なツリー構造が必要というわけではなく、短い生成サイクルや限られた深さの分解を行うケースもあります。 -
バリエーション問題を解かせ、数値検証する
生成された各バリエーションをモデルに解答させ、その正否を数値的に検証します。LADDER でも活用されているような数値積分によるチェックが典型的な例です。正しい解答を導ければ報酬が得られ、誤差が大きい場合は報酬が与えられません。 -
GRPO などでパラメータを更新(部分学習)
複数のバリエーション問題に対する成功・失敗情報から報酬を算出し、GRPO (Group Relative Policy Optimization) などの強化学習アルゴリズムでモデルパラメータを一時的にアップデートします。このアップデートは、あくまでもテスト時に限ったミニ学習セッションであるため、他の問題には直接影響しないよう工夫が凝らされています。 -
再度、本番問題 $q_i$ を解かせる
上記の追加学習によってモデルが問題固有のスキルを身につけたところで、改めて $q_i$ の解答を生成します。結果的に、追加学習前より高い正解率や精度を達成できる可能性が高まります。 -
パラメータを元の状態にリセット
次のテスト問題 $q_{i+1}$ へ移る際には、モデルのパラメータをリセットして共通の初期状態(通常は TTRL 適用前のベースモデル)に戻します。これにより、問題 $q_i$ 向けの学習が他の問題を歪めてしまう事態を防ぎ、各問題に対して独立した最適化が行えるようになります。
4. Experiments
これまでに述べてきた LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) と TTRL (Test-Time Reinforcement Learning) の手法が、実際にどの程度有効なのかを示すため、著者らは複数の実験を報告しています。本章では、それらの実験の設定と結果を順を追って紹介し、各アプローチの効果を詳細に見ていきます。
4.1 Llama 3B での実験
実験設定
まずは、比較的小さなモデルを用いた基礎的な実験から始まります。ここでは、Llama 3.2 3Bパラメータのモデルをベースラインとして採用しました。具体的には、大学レベルの積分問題を 110問 用意し、そのうち 10問 を訓練用に、残り 100問 をテスト用に分割します。そして、ベースラインである Llama 3B モデルにこれらの問題を解かせたところ、初期状態では わずか 1% ほどの正解率しか得られないという結果が得られました。これは、問題難易度がモデルの既存能力を大きく超えていることを意味しています。
結果と考察
-
Variant 生成なし + RL
まず、単純に訓練用の 10問のみで強化学習を試みると、ほとんど学習が進まず、テスト正解率はわずか 3% 程度が上限でした。しかも、その後すぐに破綻して 0% 付近に落ち込んだという報告があります。これは、十分なバリエーションを伴わないまま複雑な問題に直面しても、有効な学習が起こりにくいことを示唆しています。 -
LADDER + RL
一方、LADDER によって「難しい問題を段階的に易しくする」バリエーションを数千個生成し、それらを訓練データとして強化学習を行った場合、テスト正解率が 1% → 82% へと飛躍的に向上しました。
また、ベースモデルに対して単にサンプリング回数を増やして回答を選ぶ(pass@10など)手法では 2% にしか到達しなかったのに対し、LADDER は本質的な問題解決能力を引き上げたと考えられます。これにより、問題の難易度を段階的に落とすカリキュラムが極めて重要であることが明確になりました。
4.2 MIT Integration Bee での実験(LADDER)
次の実験では、より実践的かつ高度な舞台である MIT Integration Bee を対象に、LADDER の効果を検証しています。
MIT Integration Bee とは
MIT Integration Bee は、毎年行われる積分コンテストであり、予選段階だけでも 20問 が出題されます。通常、解答には 20分 程度しか与えられず、参加者の多くは正答率 15~30%(3~6問前後) に留まると言われています。非常に難易度が高く、競争が激しい大会としても知られています。
モデルと設定
- ベースモデルとして採用されたのは、Deepseek-R1 Distilled版の Qwen 2.5 7B という比較的大規模なモデルです(Llama 3B よりもパラメータ数は多い)。
- 過去の 2010~2024 年に行われた Integration Bee の問題を集め、それらを基に バリエーション問題を多数生成 し、訓練データとしました。
- テストセットとしては、2025年の Bee 予選問題(20問) が用いられています。
結果と評価
- ベースモデル は、この 2025年の Bee 問題に対して 50% 程度の正解率を示しました。これは、高難度の積分問題でもある程度は解ける水準ですが、まだトップクラスの人間参加者や最新モデルには及ばないと言えます。
- LADDER を適用すると、正解率が 73% にまで向上。通常の学生が 15~30% 程度の正解率にとどまることを考えると、予選通過ラインの目安(70~73%)をちょうど超える水準です。
- 一方で、OpenAI の o1 モデルは 80% というスコアを叩き出しており、今回の 7B モデル単体ではそこまで追いつけなかったことが分かります。しかし、GPT-4o が 42% しか解けないのに比べると、7B でも十分に高い水準に達していると評価できます。
4.3 MIT Integration Bee での実験(LADDER + TTRL)
続いて、さらに一歩踏み込んで TTRL (Test-Time Reinforcement Learning) を組み合わせた実験が行われました。これは、LADDER で強化したモデルをベースに、推論時に難しい問題のみを追加学習することでさらなる性能向上を狙う手法です。
実験プロトコル
- LADDER を適用後も間違えた問題 に着目し、その問題に関連するバリエーションを少量生成。
- 数十ステップ程度の強化学習をその場で実行。つまり、推論時(テスト時)にミニ学習セッションを走らせ、解答精度を引き上げることを意図しています。
- 学習後のモデルでもう一度本番問題に挑戦し、正答率を測定。
結果の要点
- これによって、もともと 73% だった正解率が、一気に 90% にまで向上。
- OpenAI o1 の 80% をも上回る数字であり、実質的に最先端水準のパフォーマンスに近づいたといえるでしょう。
- 著者らは、学習条件や検証条件が完全に同じではないため、単純比較は難しいと断りを入れつつも、「7B モデルでも工夫次第で非常に高い性能を発揮できる」ことを強調しています。
まとめと考察
以上の実験結果から得られる示唆は多岐にわたります。
-
難易度を段階的に下げるバリエーション学習(LADDER)の有効性
- Llama 3B の事例では 1% → 82%、Qwen 2.5 7B の事例では 50% → 73% と、いずれも飛躍的な性能向上を確認。
- 単なるサンプリング増加(pass@N)や既存 RL の強行適用では得られない改善幅である。
-
推論時の追加学習(TTRL)による劇的なブースト
- MIT Bee のケースでは、LADDER 後のモデルを 73% → 90% へとさらに引き上げた。
- 問題ごとに最適化(微調整)を行うことの威力が証明された。
-
大規模モデルや既存モデルとの比較
- GPT-4o や OpenAI o1 と比較しても、一部タスクでは同等かそれ以上の性能を示すケースがある。
- 学習条件の違い等があるため単純な優劣判定は困難だが、パラメータ数が小さいモデルでも工夫次第で極めて高精度を実現可能である点が重要な意味を持つ。
総合的に見ると、LADDER は「段階的に易しい問題を生成しながら学習する自己改善フレームワーク」として、また TTRL は「推論時に即席の学習を行いパフォーマンスを向上させる手法」として、いずれも従来の大規模データや人間のラベル付けに依存しない、新しい方向性のモデル育成法を示唆しています。特に、計算リソースとカリキュラム設計を適切に組み合わせれば、小・中規模のモデルでも既存の大規模モデルに匹敵する成果が出せる可能性を強く示す結果となりました。
5. Discussion
ここまでの実験結果を踏まえ、著者らは LADDER および TTRL の位置づけや可能性、そして未解決の課題について議論しています。本章では、まずテスト時の計算リソース拡大としての TTRL の意味合いや他ドメインへの応用可能性を整理し、続いて今後の研究課題を考察します。
5.1 テスト時の計算リソース拡大としての TTRL
従来の推論工夫との違い
従来の「推論時の工夫」といえば、主に 複数候補解のサンプリング(pass@k など)や 投票ベースの選好 といった手法が想定されてきました。しかし、これらの手法は、モデルの内部パラメータを基本的には固定したまま「出力を多様化して最適な解答を選ぶ」アプローチにとどまります。
一方で、本研究における TTRL (Test-Time Reinforcement Learning) は、問題が提示されたその場で、モデルの重み(パラメータ)を追加学習するという点が際立っています。これは、人間が難しい問題に直面した際、手近な関連問題を先に練習してから本番へ挑むのと同じようなイメージです。
難問への有効性
TTRL が特に有効に機能するのは、既存の学習済み能力を超える難問に直面する場合です。実際、MIT Integration Bee のような高難度タスクでは、LADDER で 73% の精度だったモデルが、TTRL による推論時追加学習を経て 90% にまで正解率を跳ね上げました。
また、問題ごとに生成されるバリエーションは互いに並列化することも考えられ、十分な計算資源(複数GPUや分散環境)を用意できれば、テスト時学習をよりスケールアウトする余地があると推測されます。
5.2 他ドメインへの拡張
generator–verifier ギャップの大きいタスク
著者らが指摘するように、 「検証は比較的簡単だが、正解を直接生成するのは極めて困難」 というタスク全般へ、この枠組みを応用できると考えられます。これは、いわゆる generator–verifier ギャップ が大きい領域とも言い換えられます。たとえば、プログラミング問題であれば、生成されたコードをユニットテストで検証することが容易である一方、正しいプログラムを最初から生成するのは難しく、また形式的証明であれば、Lean などの定理証明支援ツールを用いて解答の正否を検証することが可能です。
数学以外の論証タスク
さらに、著者らは数学以外の論証タスク、特に 定理証明への応用 を視野に入れています。もし、LADDER のように「問題を自己分解」して段階的に学習する仕組みを定理証明に適用できれば、
- 難しい定理をサブステップに分解
- 補題を一つずつ証明して積み上げ
- 最終的に元の定理を論証
というプロセスを、モデル自身の手で実現できる可能性があります。
実際、数学的定理証明でも小さなステップ(補題)を積み重ねていくカリキュラムは、人間にとっても有効とされているため、AI においても同様の効果が期待できます。
5.3 今後の課題
自動カリキュラム生成の設計
LADDER では、難しい問題をわずかに簡単化したバリエーションを生成し、段階的に難易度を上げるカリキュラムを自動的に作り出すことが大きな特徴です。しかし、これは同時に、どうやって「適切な難易度」のバリエーションを得るかという難問を孕みます。
実際、生成プロセスで誤った変形を行い、元の問題よりも複雑になってしまったり、ほとんど同じ問題を量産してしまうリスクも否めません。これらを防ぎつつ、モデルの現在の習熟度や学習の進み具合を踏まえて、動的に問題生成を制御する仕組みはまだ研究途上にあります。
数値検証の限界と拡張
現在、LADDER や TTRL では主に 数値積分 を用いて解答の正否を検証していますが、この手法には数値誤差の問題が付き物です。
さらに、プログラム実行や定理証明のように検証がもう少し複雑な形態になれば、単純な数値比較以上に多大な計算リソースや高精度な検証ツールが要求される可能性があります。そのため、
- 数値誤差へのロバスト性を高めるテクニック
- 形式的検証ツールとのシームレスな連携
といった拡張が、今後の研究で重要なテーマになると考えられます。
まとめ: 自律的カリキュラム学習の一里塚
総合的に見ると、LADDER と TTRL は、モデルが自分自身で学習カリキュラムを組み立てたり、問題に直面してからミニ学習セッションを走らせたりするという、きわめて興味深い可能性を示しています。これは、単に大規模データセットを与えて事前学習するだけでは到達しにくい“自己改善”の方向性を提示しており、人手の介入を極力減らしたままモデルが高度な専門知識を獲得するための一歩と言えるでしょう。
とはいえ、問題生成の難易度制御や検証方法の多様化など、未解決の課題は少なくありません。数学以外の分野、たとえばプログラミング問題や定理証明支援、さらには論理的推論を伴う多様なドメインへと応用するために、いっそうの研究が求められます。これらが解決されれば、LADDER と TTRL の組み合わせは、大規模言語モデルの能力を飛躍的に拡張する一つの有力な手段として確立していくことでしょう。
6. Conclusion
本章では、提案された LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) フレームワークと、推論時に追加学習を行う TTRL (Test-Time Reinforcement Learning) 手法の主要な成果と意義をまとめ、あわせて今後の課題と展望を簡潔に示します。
6.1 研究のまとめ
6.1.1. LADDER の提案と成果
本研究ではまず、モデル自身が難しい課題を段階的に易化して学習を進める枠組みとして LADDER を提示しました。具体的には、
- 大学レベル積分問題において、Llama 3B モデルの正解率が 1% → 82% へと劇的に改善。
- MIT Integration Bee 予選問題でも、7B 規模のモデルで 50% → 73% という大幅な性能向上を達成。
これらの結果は、「複雑な問題を自己分解し、易しいバリエーションを再帰的に学習する」アプローチが、単なるサンプリング増やしや既存のRL適用を超える効果をもたらすことを示唆しています。
6.1.2. TTRL の追加学習効果
さらに、推論時のみ局所的に追加学習を行う TTRL を導入することで、
- MIT Integration Bee における正解率が LADDER 適用後の 73% → 90% に向上。
- 一部タスクにおいては OpenAI の o1 モデル(約 80%)を上回る成績を示すなど、最先端水準に匹敵する成果を挙げました。
特に、問題ごとにカスタマイズされた短期的な強化学習を回すという考え方は、従来の「出力を多数生成して投票する」だけの手法とは一線を画します。モデル内部のパラメータを適応的に更新することで、難問へ挑む際の優位性が生まれるのです。
6.1.3. 大規模化に頼らない自己駆動型手法の意義
本論文では、大規模モデルをさらに巨大化する路線とは異なり、
- 自己分解によるバリエーション生成 (LADDER)
- テスト時の追加学習 (TTRL)
という 2 つの仕組みを組み合わせることで、比較的小規模のモデルであっても驚異的な性能向上を達成できることを示しました。これは、計算資源や学習データを膨大に増やす以外の選択肢として、自己駆動型の能力向上が有効な手段であることを強調しています。
6.2 今後の展望
6.2.1. 多様な分野への応用
LADDER と TTRL は、検証が比較的容易でありながら生成が難しいタスク、すなわち generator–verifier ギャップが大きい領域に広く適用できる可能性があります。たとえば、
- プログラミング問題のユニットテストによる検証
- 形式的証明ツールを活用した定理証明タスク
- 計画・推論・シミュレーションを伴う複雑なエージェントタスク
これらの分野でも、問題の自己分解やテスト時学習を組み合わせることで、新しいフレームワークが構築されると期待されます。
6.2.2. カリキュラム自動化と適応的難易度調整
LADDER の性能をさらに引き上げるには、問題バリエーションの難易度を動的に最適化する仕組みが不可欠です。現在の実装では、あらかじめ定めた生成ルールに基づいて問題を簡単化していますが、モデルの学習進捗に合わせて難易度を自動調整する洗練されたカリキュラム生成手法があれば、一層効率的な学習が可能になるでしょう。
6.2.3. 複雑な検証と数値誤差の克服
本研究では、積分問題に対して 数値積分 を用いた検証を行いましたが、より複雑な検証(プログラムの実行評価、定理証明エンジンによる形式的検証など)へとスムーズに拡張するには、追加の工夫が必要です。たとえば、
- 数値誤差に対するロバスト化
- テストケース設計(プログラミング課題の場合)
- 形式的証明システムとのインターフェース調整
これらの要素をどのように設計するかは、今後の研究における主要なチャレンジとなるでしょう。
6.3 結論
以上のように、LADDER と TTRL は、単に大規模モデルを巨大化する方向性とは異なる視点から、言語モデルの問題解決能力を段階的かつ自律的に引き上げる新しいフレームワークを示しています。具体的には、
- 難しい問題を自分で簡単化しながら学習する(LADDER)
- 推論時に追加の計算リソースを用いて自己改善を行う(TTRL)
という 2 つの手法を組み合わせることで、大学レベルの積分問題や MIT Integration Bee といった高度なタスクでの成果が顕著に向上しました。これにより、小規模・中規模モデルでも、工夫次第で最先端モデルに匹敵あるいは上回るパフォーマンスを発揮できることが示唆されています。
将来的には、検証の容易さと問題生成の難しさのギャップが顕著なあらゆる領域において、自己駆動型のカリキュラム学習や 推論時強化学習が活用される可能性があります。本研究で提示されたフレームワークは、数理的問題解決のみならず、プログラミング、定理証明、論理推論などの広範な応用領域への扉を開くものであり、AI が自律的に自身の能力を伸ばしていく将来像を具体的に示す一例といえるでしょう。
補足解説: GRPO(Group Relative Policy Optimization)
深層学習の進展に伴い、言語モデル(Large Language Models; LLM)の性能をさらに押し上げるために、強化学習(Reinforcement Learning; RL)を活用する手法が注目されています。中でも、PPO (Proximal Policy Optimization) に代表される Actor-Critic 系アルゴリズムが広く利用されてきました。しかしながら、PPO においては、方策モデル(Policy Model)だけでなく、価値関数モデル(Value Model)も同時に学習するため、大規模言語モデルへの適用時に大きなメモリコストや計算コストが発生します。
一方で、そうした負担を軽減しつつ、なおかつ高いパフォーマンスを狙うためのアプローチとして登場したのが、GRPO (Group Relative Policy Optimization) です。本章では、まず GRPO の背景と設計の狙いを概観し、続いて具体的なアルゴリズム上のポイントや、報酬モデル(Reward Model)との親和性について詳しくみていきます。そして最後に、数学的推論のタスクや安全性タスクなど、どのような形で応用されるかを例示します。
1. GRPOとは何か
1.1 背景:PPOの制約
まずは、GRPO の基盤となる PPO (Proximal Policy Optimization) を簡潔におさらいしましょう。PPO は、
- 方策勾配法 (Policy Gradient)
- 価値関数 (Value Function) によるアドバンテージ推定 (Advantage Estimation)
- 方策の更新幅をクリッピングすることによる安定化
という要素を組み合わせた、Actor-Critic 方式の強化学習アルゴリズムです。PPO は非常に汎用性が高いため、多くのタスクや大規模言語モデルの強化学習微調整(RLHF: Reinforcement Learning from Human Feedback など)に採用されてきました。
しかし、価値関数モデルを学習する過程では、エージェントが観測する状態ごとに期待収益を予測する必要があるため、追加のニューラルネットワーク(価値関数ネットワーク)を用意しなければならず、学習の安定化にもさまざまなハイパーパラメータ調整が求められます。とりわけ、言語モデルのように報酬がシーケンスの最後にのみ与えられる設定では、トークンごとの価値を正確に推定するのが難しいケースも多々あります。
1.2 GRPO のエッセンス
このような背景を踏まえ、GRPO は次のような戦略を取ります:
- 価値関数モデルを不要化: 従来の Actor-Critic フレームワークで学習される価値関数を持たず、代わりにグループ内の相対的報酬をベースラインとして活用。
- 比較による報酬評価: ある質問(プロンプト)に対して複数の候補回答(出力)を生成し、それらをまとめて評価(グループ化)する。ここで、各回答への報酬を計算した上で、報酬の平均値を基準に相対的なアドバンテージを推定。
- 計算コストの軽減: 価値関数ネットワークがないため、メモリ使用量の削減および計算量の削減が可能。学習がよりシンプルになる。
このアプローチが、LLM のように大規模なパラメータを抱えるモデルでも効率的に強化学習を適用できる理由になっています。
2. GRPOの構成要素:PPOとの差異を軸に
GRPO はしばしば PPO をベースにした「変種 (Variant)」と位置付けられていますが、その主な違いは以下にまとめられます。
-
価値関数モデルの省略
- PPO では、方策モデル(Policy)と価値関数モデル(Value)の2本立て。
- GRPO では、価値関数モデルを一切学習せず、「グループ内報酬の平均」をベースラインとして使う。
-
ベースライン推定手法
- PPO では、価値関数によってアドバンテージを推定。
- GRPO では、「複数出力の報酬平均」や「報酬の比較」に基づいてアドバンテージを算出。
-
KLダイバージェンスの扱い
- PPO では、報酬に直接 KL ペナルティを付与しトークンごとに管理する設計が多い。
- GRPO では、KL を損失関数の一部として組み込み、クリッピングやアドバンテージ計算をシンプルに保つ。
-
常に非負の KL 推定量
- GRPO は、KL ダイバージェンスの推定にアンバイアスな推定量を使用し、安定性を高めている。
2.1 報酬モデルとの親和性
多くの言語モデル強化学習シナリオでは、報酬モデル (Reward Model) が「ある質問に対し、複数の回答を比較し、どちらがより好ましいかを学習する」ことで構築されます。GRPO は、まさにこうした比較的な報酬を前提として設計されているため、報酬モデルで得られる情報を効率よく活かせます。
具体的には、同じ質問に対して $G$ 個の出力を生成し、それぞれの出力に対する報酬スコアを算出してから、グループ内の平均報酬や分散を参照しつつ、相対的なアドバンテージを導き出します。結果として、価値関数モデルを別途学習しなくても、十分に方策更新のための指標を得ることができるのです。
3. GRPOの目的関数:式から読み解く
GRPO のアルゴリズムは、PPO と同様、信頼領域(Trust Region)を越えないようにクリッピングを行う点などを踏襲しています。ただし、そのアドバンテージ計算が「グループ内の相対評価」を反映するという点が大きく異なります。
以下に示す目的関数は、典型的な GRPO の一例です。数式自体はやや複雑ですが、ポイントは 「複数の出力 $o_i$ について、報酬の平均をベースラインとする形でアドバンテージ $\hat{A}_{i,t}$ を定義し、PPO 風の更新を行う」 ことにあります。
J_{\mathrm{GRP}}(\theta) \;=\;
\mathbb{E}\Bigl[q \sim P(Q), ({o_i})_{i=1}^G \sim \pi_{\theta_{old}}(O|q)\Bigr]
\frac{1}{G}\sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|}
\Bigl\{
\min\Bigl(
r_{i,t}(\theta)\,\hat{A}_{i,t}, \;
\mathrm{clip}\bigl(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon\bigr)\,\hat{A}_{i,t}
\Bigr)
\;-\; \beta \,D_{\mathrm{KL}}\bigl[\pi_{\theta} \,\|\, \pi_{\mathrm{ref}}\bigr]
\Bigr\}
\Bigr],
- $r_{i,t}(\theta) = \dfrac{\pi_{\theta}(o_{i,t} \mid q, o_{i,<t})}{\pi_{\theta_{\mathrm{old}}}(o_{i,t} \mid q, o_{i,<t})}$ は方策比(PPO と共通)。
- $\hat{A}_{i,t}$ はグループ内の相対的な報酬を利用して計算されたアドバンテージ。
- $D_{\mathrm{KL}}[\pi_{\theta} | \pi_{\mathrm{ref}}]$ は参照モデル(例えば初期の SFT モデル)との乖離を測る KL ダイバージェンス。
- $\epsilon$ や $\beta$ はクリッピングやペナルティの強度を制御するハイパーパラメータ。
これにより、メモリ効率を高めつつ報酬モデルを最大限に活用したポリシー更新が可能になります。
4. 報酬モデルの詳細
GRPO で特に重要なのは、報酬モデル (Reward Model) がどのように設計・適用されるかという点です。というのも、GRPO は価値関数モデルを廃止し、報酬モデルの比較的なスコアリング(つまり、「複数回答をどのように優劣づけるか」)によってアドバンテージを算出するからです。
4.1 報酬モデルの中心的役割
- 生成されたテキストの品質評価:質問やプロンプトに対してモデルが返す回答の「正確性」「関連性」「安全性」「完成度」などを数値化。
- アドバンテージ推定:グループ内での平均報酬と標準偏差を踏まえ、相対的に良い出力かどうかを示す指標を計算。
- 方策更新への影響:アドバンテージが高い出力ほど(=望ましい出力ほど)生成されやすくなるようにポリシーを更新。
4.2 比較的な性質との相性
多くの報酬モデルが「ペア比較」を通じて学習される(たとえば“出力 A と B のどちらが優れているか”を学習)ため、 同一の質問に対する複数出力を相対評価する仕組み が非常にフィットします。GRPO では、まさにこの比較ベースの報酬スコアを活かしてグループ単位の相対評価を行います。こうした設計によって、価値関数のような絶対評価を学習しなくても済むわけです。
5. 実際の応用例
5.1 数学の問題解決
ソースでは、DeepSeekMath や LADDER フレームワークにおける数学的推論タスクの性能向上のために GRPO が利用されたと報告されています。数学の問題では、生成された解答の正解・不正解が比較的明確であるため、報酬モデルも「正解率」や「論理的ステップの正当性」をベースに設計しやすいです。
たとえば、最終的に答えが一致しているかどうかを数値比較したり、途中経過のステップを検証したりすることで、報酬が与えられます。GRPO はそうした報酬を受け取り、グループ内で相対的に良い解答を生み出す方策を強化していきます。
5.2 Instruction Following
近年盛んな指示調整 (Instruction Tuning) の領域でも、GRPO が注目を集めています。与えられた指示にどれだけ忠実か、あるいは応答の質・一貫性・包括性がどの程度かといった基準を、報酬モデルがスコアリングし、GRPO は同じ指示に対する複数回答を比較して学習を進めます。こうした手法は、ユーザーフィードバックを含む RLHF (Reinforcement Learning from Human Feedback) と自然に結びつきやすいといえるでしょう。
5.3 安全性 (Safety)
さらに、出力の安全性を高めるために、有害発話の抑制 や プライバシー侵害表現のペナルティ などを報酬モデルで定義することも考えられます。GRPO は、複数の回答をまとめて評価し、比較的安全な回答を優先するように方策を更新することで、モデルの安全性・信頼性を向上させます。
6. 他のアルゴリズムとの比較
GRPO は魅力的な設計を持つ一方で、特定のタスクでは REINFORCE++ や PPO のほうが安定性や性能で優位になるケースも報告されています。たとえば、論理パズルタスクでの比較実験では、
- REINFORCE++:学習速度は速いが、報酬や精度には限界がある
- PPO:精度や報酬は高いが、計算コストが大きい
- GRPO:メモリと計算効率が良いものの、特定タスクでの最高性能は PPO に及ばないケースがある
このように、タスクの種類や評価指標によってどのアルゴリズムが最適かは変わるため、GRPO が常に万能というわけではありません。しかし、価値関数を省きつつ相対評価の仕組みを活かすというユニークな設計が、特に大規模言語モデルの自己改善フレームワーク(LADDER や TTRL など)には非常によく適合するとの報告があります。
7. まとめと展望
GRPO (Group Relative Policy Optimization) は、PPO のような従来の Actor-Critic 系アルゴリズムにおける価値関数モデルを省略し、報酬モデルが比較的に与えるスコアを最大限に活用することで、メモリ効率と計算効率を大幅に改善します。この利点により、以下のような分野で威力を発揮することが期待されています。
- 高難度数学タスク: 解答の正確性が判定しやすく、大規模モデルの微調整コストを抑えられる。
- 指示チューニング: 複数回答を比較しながら、よりユーザーニーズに合った出力を強化。
- 安全性・品質向上: 出力間の相対評価を用いて、有害コンテンツの抑制や望ましいスタイルへの誘導。
もっとも、性能・安定性の観点では PPO や他のアルゴリズムが優位な場合もあるため、タスクの性質や訓練環境との相性を見極めて選択する必要があります。とはいえ、価値関数を学習しないという設計上のシンプルさは非常に魅力的であり、特に報酬モデルが「回答間の比較」を主体とするタスクにおいて、GRPO は今後ますます注目される手法になるでしょう。
こうした進展の先には、LADDER や TTRL といった自己改善フレームワークとの連携がさらに深まり、自律的に自己指導しながら大規模言語モデルが高難度の問題解決能力を獲得していく未来が見えてきます。学習リソースの限界に挑みながらも、より豊かなアウトプットを生み出せる時代がすぐそこまで来ているのかもしれません。
補足説明:TTRL/TTR(Test-Time Reinforcement Learning)
従来の学習方法(大量のデータセットを用いた事前学習や指示チューニングなど)では、学習が「事前学習フェーズ」や「微調整フェーズ」でほぼ完結するという前提が一般的でした。
一方で、「推論を行っている最中にも学習を続ける」――つまりテスト時の状況に合わせてモデルを動的にアップデートする手法が注目されています。これがTest-Time Reinforcement Learning(TTRL)またはTTRと呼ばれるアプローチです。
本章では、まず TTRL/TTR の基本概念を述べた後、LADDER フレームワークとの組み合わせでどのように大規模言語モデルの性能向上を実現できるのか、そして具体的な適用事例やアルゴリズム構成について詳しく解説していきます。
1. TTRL/TTRとは何か
1.1 従来の強化学習とTTRLの違い
強化学習(Reinforcement Learning, RL)では、エージェントが環境との相互作用を通じて報酬(reward)を最大化するポリシーを学習します。典型的には、学習フェーズと推論フェーズが明確に分かれており、推論(テスト)時には追加の学習を行わないのが一般的です。
しかし、TTRL/TTR では、
- テスト時(推論時)にも強化学習を継続し、
- 新しい環境や問題に直面した際に、オンザフライ(on-the-fly)で方策(ポリシー)を適応させる
という特徴があります。これは、人間が新しい問題を解くときに、その場でメモを取りながら試行錯誤し、解き方を調整していくイメージに近いと言えます。
1.2 用途と重要性
- 動的環境への適応: 推論時の環境がトレーニング時と異なる場合でも、TTRL があれば柔軟に学習し直すことができます。
- リアルタイムの意思決定: 迅速なオンライン学習が求められるタスク(ロボティクス、交通管理、ゲームAIなど)で特に有用です。
- トラブルシューティング: 予想外の入力(例:難解な数式問題、見慣れない文脈の問い合わせ)が来ても、その場で最適化を行うことで回答精度を高められます。
2. LADDERとの連携:自己生成した簡単問題を活用する
TTRL が特に注目を集める一例として、LADDER (Learning through Autonomous Difficulty-Driven Example Recursion) フレームワークとの組み合わせがあります。LADDER とは、複雑な問題からより簡単な「変種(variant)」を自動生成し、段階的に学習を行う手法です。
2.1 変種生成 (Variant Generation)
LADDER フレームワークでは、以下のステップで問題を分解していきます:
- 難しい問題(例:大学レベルの複雑な積分問題)に直面。
- 温度サイクリングなどの生成制御技術を用いて、より単純化した問題(=バリアント)を大量に生成。
- 生成されたバリアント群をグループ化し、強化学習を用いて段階的に解を学ぶ。
このアプローチによって、大規模言語モデルでも「1%しか解けなかった問題を82%解けるようになる」など、飛躍的な性能向上が報告されています。
2.2 検証メカニズム (Solution Verification)
LADDER では、「解が正しいかどうか」を自動的に判定できる仕組み(検証メカニズム)を導入します。
- たとえば、数値積分問題なら数値解との比較で誤差が小さければ正解とみなす。
- プログラミング問題ならテストケースを通過すれば OK。
これにより、人間のアノテーションなしでも大規模に自己学習が可能となります。
2.3 TTRL での推論時学習
TTRL(Test-Time Reinforcement Learning)は、もともとオフラインで行っていた LADDER の学習プロセスを推論時にも一部継続させるものです。具体的には次のように動作します:
- テストインスタンス(本番の入力) が与えられる。
- もし解が難しそうな場合、LADDER で行うような「より簡単なバリアント問題」を推論時に生成。
- バリアント問題を解き、その解が正しいかどうかを検証メカニズムで判定。
- 得られた報酬に基づき、 強化学習(GRPO など) で一時的にパラメータを最適化。
- 最終的に難しい本番問題へ解を適用し、回答を生成。
- 次のテストインスタンスへ移る際、モデルのパラメータは元の状態にリセット。
これにより、テスト時に特化した「ミニ学習セッション(マイクロラーニングプロセス)」が走り、解法が洗練されます。
3. 内部アルゴリズム:GRPO (Group Relative Policy Optimization)
TTRL の学習アルゴリズムとしてよく登場するのがGroup Relative Policy Optimization (GRPO) です。これは、一般的な強化学習で用いられる PPO (Proximal Policy Optimization) などと同様に「ポリシー勾配に基づく最適化」を行いますが、以下の特徴があります:
- グループ単位での報酬評価: 複数のバリアント(あるいは複数の試行)をグルーピングし、それらから得られる相対的なフィードバックを利用してポリシーを更新する。
- criticモデルを明示的に持たない: 代わりに、グループ内スコアをベースラインとして扱うことで、メモリ使用量を削減しながら効率的に学習を進める。
このアプローチにより、問題ごとのバリエーションを比較しながら相対的な報酬を得ることができ、安定した学習プロセスを実現します。
4. 実験結果とメリット
4.1 MIT Integration Bee 2025での成果
LADDER フレームワークを適用したモデルが 73% の精度を達成していたのに対し、推論時に 100 ステップの TTRL を加えたところ、90% まで精度が向上したという報告があります。
さらに、この結果は同ベンチマークでの OpenAI の o1モデル (pass@1) よりも高い性能を示しています。
4.2 大規模モデルとの比較
- 従来の方針:大規模モデル(例:数百億~数千億パラメータ)にデータを大量投入して性能を高める
- TTRL:より小さいモデルでも「推論時の追加学習」で性能を引き上げる
興味深いことに、TTRL+LADDER は、大規模モデルを上回る精度向上を少ないパラメータ数で実現可能なケースが確認されています。これは計算リソースと学習戦略を組み合わせる新たな潮流とも言えます。
4.3 並列化と計算資源の活用
TTRL では「推論時にバリアントを生成して解く」プロセスを複数スレッドやGPUなどで並列に処理できる可能性があります。
従来の「1つの巨大モデルが逐次トークンを生成する」アプローチよりも、複数のバリアント問題を並行して解き、それらを相互に評価する形で効率を高められるかもしれません。
5. 実装面のポイント
5.1 ポリシーの適応とリセット
TTRL の実装では、推論時に更新したパラメータをどう扱うかが重要です。多くの場合、「特定の問題インスタンスの解決後にはパラメータを元に戻す」設計が推奨されます。これにより、ある問題での特化学習が別の問題に影響を与えることを防ぎます。
5.2 自己教師あり学習との関係
Test-Time Training(TTT)と呼ばれる自己教師あり学習のアプローチも存在します。TTRL が強化学習の文脈で「報酬」を用いるのに対し、TTT はより自己教師的に損失を定義してテスト時最適化を行います。両者は目的関数が異なる点に注意が必要ですが、 「推論時にモデルをアップデートする」という発想は共通 しています。
5.3 計算コスト
推論時に追加の学習を行うため、明らかに余分な計算資源が必要です。リアルタイムのシステムでは、限られた推論時間内でバリアント生成と学習をどこまで行えるか、 計算コストと性能向上のトレードオフ が大きなテーマとなります。
6. 応用例と展望
- ロボティクス: ロボットが実稼働中に新たな環境(段差、未知の障害物など)に適応するために TTRL を用いる。
- 交通管理: 交通情報がリアルタイムに変化するなか、TTRL によってシグナル制御や経路最適化を学習し続ける。
- ゲームAI: プレイヤーの戦略に合わせて推論時に学習を進め、人間の意表をつく行動を可能にする。
- 学術コンテスト(数式変形・定理証明など): 数学系やプログラミング系の難易度の高い問題で、バリアント生成と検証を繰り返すことで高スコアを狙う。
今後は、自己教師あり学習、マルチタスク学習、転移学習などとのハイブリッドが活発に研究されると見られます。特に、**「推論時に外部知識ベースへアクセスしながらオンラインでポリシーを更新する」**ような拡張が期待されます。
参照文献
- Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, and Yi Ma.Sft memorizes, rl generalizes: A comparative study of foundation model post-training, 2025. https://arxiv.org/abs/2501.17161
- DeepSeek-AI.Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025. https://arxiv.org/abs/2501.12948
- Patrick Haluptzok, Matthew Bowers, and Adam Tauman Kalai.Language models can teach themselves to program better, 2023. https://arxiv.org/abs/2207.14502
- Tomasz Korbak, Hady Elsahar, Germán Kruszewski, and Marc Dymetman.On reinforcement learning and distribution matching for fine-tuning language models with no catastrophic forgetting, 2022. https://arxiv.org/abs/2206.00761
- Nathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, and Hannaneh Hajishirzi.Tulu 3: Pushing frontiers in open language model post-training, 2025. https://arxiv.org/abs/2411.15124
- Hunter Lightman, Vineet Kosaraju, Yura Burda, Harri Edwards, Bowen Baker, Teddy Lee, Jan Leike, John Schulman, Ilya Sutskever, and Karl Cobbe.Let’s verify step by step, 2023. https://arxiv.org/abs/2305.20050
- Niklas Muennighoff, Zitong Yang, Weijia Shi, Xiang Lisa Li, Li Fei-Fei, Hannaneh Hajishirzi, Luke Zettlemoyer, Percy Liang, Emmanuel Candès, and Tatsunori Hashimoto.s1: Simple test-time scaling, 2025. https://arxiv.org/abs/2501.19393
- Sanmit Narvekar, Bei Peng, Matteo Leonetti, Jivko Sinapov, Matthew E. Taylor, and Peter Stone.Curriculum learning for reinforcement learning domains: A framework and survey, 2020. https://jmlr.org/papers/v21/20-212.html
- OpenAI.Learning to reason with llms, 2024. https://openai.com/index/learning-to-reason-with-llms/
- Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe.Training language models to follow instructions with human feedback, 2022. https://arxiv.org/abs/2203.02155
- Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y. K. Li, Y. Wu, and Daya Guo.Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024. https://arxiv.org/abs/2402.03300
- Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models, 2023. https://arxiv.org/abs/2203.11171
- Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, and Chong Luo.Logic-rl: Unleashing llm reasoning with rule-based reinforcement learning, 2025. https://arxiv.org/abs/2502.14768
- Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, and Karthik Narasimhan.Tree of thoughts: Deliberate problem solving with large language models, 2023.
- Eric Zelikman, Yuhuai Wu, Jesse Mu, and Noah D. Goodman.Star: Bootstrapping reasoning with reasoning, 2022. https://arxiv.org/abs/2203.14465