Q*論文
note
Q*: Improving Multi-step Reasoning for LLMs with
Deliberative Planning
https://arxiv.org/abs/2406.14283
1. 序論 (Introduction)
- 大規模言語モデル (LLM) は、数学の文章問題、コード生成、計画など、様々な推論タスクにおいて目覚ましい能力を示している。
- しかし、LLMは自己回帰的な生成プロセスであるため、推論ステップが増えるにつれて、エラー、幻覚、矛盾した記述を生み出す傾向がある。
- 既存のLLM改善手法は、大規模なタスク固有コーパスを用いたファインチューニングや、報酬モデルを用いた候補応答のランク付けなど、計算コストや他のタスクへの悪影響といった課題を抱えている。
- 本論文では、LLMの多段階推論をヒューリスティック探索問題と捉え、熟慮的な計画を用いてLLMのデコードプロセスをガイドする、汎用的で用途が広く機敏なフレームワークであるQ*を提案する。
- Q*は、プラグアンドプレイ可能なQ値モデルを学習することで、LLMをファインチューニングすることなく、最も有望な次の推論ステップを選択するように効果的にガイドする。
2. 関連研究 (Related Works)
- LLMの調整:LLMの出力が人間の期待から逸脱しないようにするための技術として、教師ありファインチューニング (SFT)、人間のフィードバックからの強化学習 (RLHF)、直接選好最適化 (DPO)、Alignerなどがある。
- 計画を用いたLLMの強化:思考の木 (ToT) は、基本的な木探索アルゴリズムを用いて問題解決に向けた中間ステップを探索することで、LLMの推論能力を向上させる。A*探索やモンテカルロ木探索 (MCTS) も、複雑な推論問題を解決する際のLLMの性能を向上させる計画技術として応用されている。
- 数学的推論とコード生成のためのLLM:数学的推論とコード生成は、LLMが関係、量、論理について本質的に難しい多段階推論を行うことを要求する。現在の手法としては、プロンプトエンジニアリング、LLMのファインチューニング、報酬モデル/検証器の訓練などがある。
3. 準備 (Preliminary)
- 3.1 LLMの多段階推論をMDPとして定式化する:LLMの回答生成プロセスは、複数の推論ステップに分解することができ、最終的な回答シーケンスはこれらのステップの連結とみなせる。このプロセスは、マルコフ決定過程 (MDP) として定式化できる。
- 3.2 A探索:Aは、熟慮的な計画、マルチエージェント経路探索、制約推論において重要なヒューリスティック探索アルゴリズムである。A*は、経路探索問題において、始点から目標点までの最短経路を見つけるために提案された。
4. Q*:LLMのための汎用的、用途が広く機敏な熟慮フレームワーク (Q*: A General, Versatile and Agile Deliberation Framework for LLMs)
- 多くの最新のLLMは、自己回帰的な方法で自然言語を生成する。そのため、多段階推論問題に適用すると、以前のステップが間違っていると、後続の推論トレースにエラー、幻覚、矛盾した記述が生じる可能性がある。
- Qは、LLMが各タスクのために事前にコストのかかるファインチューニングを行うことなく、多段階推論を実行する際に、最も有望な次のステップを選択するように効果的にガイドする、Aに基づく汎用的、用途が広く機敏な熟慮フレームワークである。
- Q*は、与えられた問題に対する最も適切な推論シーケンスを見つけることを、各状態が将来得られる効用を推定するf値と関連付けられたヒューリスティック探索プロセスとして扱う。
- 4.1 最適Q値の推定:Q*を実装する上での重要な課題は、与えられた推論問題において最適とは限らない固定されたLLMポリシーπθを用いて、状態行動ペアの最適Q値を推定することである。そのため、オフライン強化学習、ロールアウトからの学習、より強力なLLMによる近似など、Q値ラベルを効果的に構築する方法を提案する。
- 4.2 Aを用いた熟慮的な計画:プロキシQ値モデルQを取得したら、それを式(6)に代入して各状態のf値を計算し、Aを用いて最良優先探索を実行できる。
5. 実験 (Experiments)
- 5.1 実験設定:Q*の有効性を、2つの数学的推論タスクと1つのコード生成タスクで評価する。データセットには、GSM8K、MATH、MBPPを使用する。
- 5.2 実験結果:GSM8Kでは、Llama-2-7bをベースモデルとして選択し、MetaMathでファインチューニングした後の精度が65.2%に達する。MATHでは、Llama-2-7bの性能が低いため、他の2つの強力なLLM、Synthetic DataでファインチューニングしたLlama-2-7bとDeepSeek-Math-7bを用いてQ*の有効性を評価する。MBPPでは、コード生成の観点から最も強力なオープンソースLLMであるCodeQwen1.5-7b-Chatをベースモデルとして選択する。
6. 結論 (Conclusion)
- 難しい多段階推論問題を解決するには、LLMが自己回帰的なトークン生成だけでなく、深い熟慮を行う必要がある。
- 本論文では、LLMのための汎用的、用途が広く機敏な熟慮フレームワークであるQ*を提案する。
- Q*は、各特定タスクの効用関数を設計するために広範な専門知識を必要とする既存の熟慮方法とは異なり、値モデルを訓練するために真の値のみに依存し、変更なしに様々な推論タスクに容易に適用できる。
- さらに、プラグアンドプレイ可能なQ値モデルをヒューリスティック関数として活用することで、Q*はLLMを事前にファインチューニングすることなく、様々なタスクを解決するように効果的にガイドできるため、他のタスクの潜在的な性能低下を回避できる。
- 最後に、Q*は、MCTSにおけるシミュレーションのような完全なロールアウトではなく、毎回1ステップのみを考慮するため、機敏である。
- 数学的推論とコード生成タスクに関する広範な実験的評価により、提案手法の優位性が確認された。
まとめ
本論文では、LLMの多段階推論能力を向上させるための新しいフレームワークQが提案されている。Qは、熟慮的な計画を用いることで、LLMがより正確で効率的に推論を行うことを可能にする。実験結果から、Q*は既存の手法と比較して優れた性能を示しており、LLMの多段階推論における重要な進歩と言える。