ぼっち論文サーベイメモ2025 Advent Calendar 2025

State of AI Report 2025: Research(AI推論モデルの進化とアーキテクチャ革新)

Last updated at 2025-12-03Posted at 2025-12-03

State of AI Report 2025(Air Street Press)

Research(AI推論モデルの進化とアーキテクチャ革新)

（主にP12-18, 33, 41の内容）

この分野では、AIがより賢く、より効率的に「考える」能力を身につけるための最新の進歩が語られています。まるで人間の思考プロセスを模倣し、さらに超えるかのような技術が次々と登場している状況です。

「考える」AIの始まり：OpenAIの o1
- 物語は2024年末、OpenAIが発表した o1-preview というモデルから始まります。このモデルの画期的な点は、「CoT (Chain-of-Thought)」という、AIが問題を解く際にステップバイステップで思考過程を書き出す仕組みを、RL (強化学習) と組み合わせて使えるようにしたことでした。
- これにより、AIはまるで人間がメモを取りながら考えるように、複雑なコードや科学の問題をよりロバスト（堅牢）に解決できるようになりました。有名な数学の試験 AIME (American Invitational Mathematics Examination) でも、その精度が大きく向上したのです。
  　
競争の激化：DeepSeekの台頭
- OpenAIの o1 の登場後、わずか2ヶ月で中国のDeepSeekというAIラボが R1-lite-preview を発表し、競争が激化しました。このモデルは、AIME で o1-preview を上回るスコアを叩き出し、その推論能力の高さを示しました。
- DeepSeekはさらに V3 という大規模な基盤モデルを投入し、その上に R1-Zero を開発しました。R1-Zero は、最終的な答えが正しいかどうかでシンプルに報酬を与える「ルールベース報酬」と、複数の候補を比較して相対的に評価する「GRPO (Group Relative Policy Optimization)」という、報酬モデルや価値関数が不要な新しい強化学習アルゴリズムを採用しました。これにより、AIはより効率的に学習し、AIME などのスコアを飛躍的に向上させました。
  　
効率と多様な思考：MoEとスパースアテンション
- モデルの巨大化に伴い、計算コストの課題も浮上します。DeepSeek V3 は FP8 (8ビット浮動小数点数) を導入し、トレーニングと推論のコストを削減しました。
- また、MoE (Mixture of Experts) というアーキテクチャは、モデルを複数の「専門家」に分け、入力に応じて最適な専門家を選んで処理することで、容量を増やしつつ計算効率を保つことを可能にしました。
- さらに、DeepSeek V3.1 では、素早く推論するか深く考えるかを切り替える「ハイブリッド思考モード」を導入し、V3.2-Exp では DSA (DeepSeek Sparse Attention) という技術で、長いテキストの中から重要な部分だけを選んで注意を向けることで、コストと遅延を大幅に削減しました。これは、AIが情報の取捨選択を賢く行う能力を身につけたことを意味します。
  　
思考の並列化と融合：枝分かれと合流
- 従来のAIの思考は一本道でしたが、Adaptive Parallel Reasoning (APR) という技術が登場し、AIが複数の推論経路を同時に探索し、後でそれらを「合流」させる（spawn() と join() 操作）ことが可能になりました。これは、まるで人間が複数の可能性を同時に検討するようなものです。
- これにより、AIはより広い探索を行い、誤った情報を生成する「ハルシネーション」を減らし、並列計算ハードウェアをより有効に活用できるようになりました。Googleの Gemini Deep Think なども、このような枝分かれ・評価のパラダイムを実システムで示しています。
  　
フロンティアの競争と数学のブレイクスルー
- これらの進化の結果、OpenAIの GPT-5 や Gemini、Claude といったフロンティアモデルだけでなく、DeepSeek、Qwen、Kimi (K2 など) といった中国勢やオープンモデルも急速に性能差を縮めています。
- 特に注目すべきは、数学のような「検証可能」な領域での進歩です。OpenAI、DeepMind、Harmonic といった各社が、国際数学オリンピック (IMO gold-medal) レベルの性能を達成し、AIが数学の研究レベルの結果を導き出し、形式化する可能性を現実のものとしています。Moonshot AIの K2 のように、MuonClip のような安定性の高い最適化技術と MoE を組み合わせることで、オープンソースでありながら兆規模のパラメータを持つモデルも登場し、エージェントとしての活用が期待されています。

まとめると、AIは単に与えられたデータからパターンを見つけるだけでなく、「思考の連鎖」を組み立て、より複雑な問題を解き、その思考プロセスを効率化し、さらには複数の思考経路を並行して探索できるようになっています。これにより、数学のような難解な分野でも、人間が到達できなかった高みにAIが到達する道が開かれつつある、非常にエキサイティングな時代を迎えていると言えるでしょう。

Q:`GRPO`(Group Relative Policy Optimization)について、既存の強化学習の手法と比較しつつ、わかりやすく説明してください

A:

強化学習 (RL) の基本的な考え方

まず、強化学習は、AI（エージェント）が環境の中で試行錯誤し、良い行動には「報酬」を、悪い行動には「罰」を受け取ることで、最終的に最も多くの報酬を得られるような行動方針（ポリシー）を学習する技術です。

従来の多くの強化学習の手法では、大きく分けて以下の2つの要素が重要でした。

ポリシー（Policy、またはActor）: AIが「次にどう行動するか」を決める部分です。例えば、言語モデルなら「次にどの単語を生成するか」を決める役割です。
報酬の評価（Reward Evaluation）:
- 報酬モデル（Reward Model）: 人間の好みや複雑な基準を学習して、AIの生成した結果（文章や行動のシーケンスなど）がどれくらい良いかを評価し、報酬を計算する別のAIモデルです。RLHF (Reinforcement Learning from Human Feedback) などでよく使われます。
- 価値関数（Value Function、またはCritic）: 現在の状態や行動が、将来的にどれくらいの報酬をもたらすかを予測する部分です。ポリシーの学習を安定させ、効率を上げるために補助的に使われることが多いです。（例: PPO のようなActor-Critic手法）

これらの要素は強力ですが、それぞれに課題もありました。

報酬モデルの課題:
- 人間のフィードバックを大量に集めるのが大変で、コストがかかる。
- 報酬モデル自体が完璧ではないため、AIが報酬モデルの「穴」を突いて、人間が意図しない方法で高い報酬を得ようとする「報酬ハッキング」が発生することがある。
- 別のAIモデルを訓練する必要があり、計算リソースもかかる。
価値関数の課題:
- 価値関数を正確に学習するのが難しく、学習の不安定さにつながることがある。
- やはり追加のニューラルネットワークであり、モデルの複雑性を増し、計算コストも増大させる。

`GRPO` (Group Relative Policy Optimization) の革新性

ここで GRPO が登場します。GRPO の最大の特徴は、報酬モデルや価値関数といった補助的なAIモデルを必要としない点です。

これを分かりやすく例えるなら、「絶対的な基準」ではなく「相対的な比較」で学習する、と考えると良いでしょう。

グループでの複数サンプル生成:
- GRPO では、ある問題に対して、AIが一度に複数の異なる「思考」や「答えの候補」を生成します。これは、まるでテスト問題に対して、複数の異なる解答用紙にそれぞれ別の解き方や答えを書いてみるようなものです。
- 論文では「think → answer」形式と説明されているので、複数の思考経路を生成し、それぞれから最終的な答えを導き出すイメージです。
シンプルなルールベースの報酬:
- それぞれの候補に対して、最終的な答えが正しいかどうかを、非常にシンプルで客観的なルール（例えば、数学の答えが合っているか、コードが正しく動くかなど）に基づいて評価し、報酬を与えます。この報酬は、「正しいか間違っているか」のような単純なもので、人間が好みを教え込むような複雑な報酬モデルは不要です。
相対的な比較による学習:
- ここが GRPO の核心です。AIは、生成した複数の候補の中から、最も高い報酬（つまり、正解に最も近い、または正解だったもの）を「より良い」ものとして選びます。
- そして、その「より良い」候補と比較して、他の「あまり良くなかった」候補を改善するように学習します。
人間で例えるなら、こうです。
「この問題、Aという方法で解いてみたら答えは出なかった。でも、Bという方法で解いたら正解だった。よし、今後はBの方法に似た解き方を優先しよう。」
このように、他の選択肢との比較を通して、何が良かったのか、何が悪かったのかを判断し、学習を効率化するのです。

`GRPO` のメリット

シンプルで安価: 複雑な報酬モデルや価値関数を訓練する必要がないため、学習プロセスがシンプルになり、計算リソースも節約できます。
報酬ハッキングに強い: ルールベースの客観的な報酬（最終的な答えが合っているかなど）を使うため、報酬モデルの「穴」を突かれるような報酬ハッキングのリスクが低減されます。
探索の促進: 複数の候補を同時に生成することで、単一の思考パスでは見つけられなかったより良い解法や、多様な推論経路を探索する機会が増えます。

まとめると、GRPO は、強化学習の重要な補助要素であった報酬モデルや価値関数を「グループ内での相対的な比較」と「シンプルなルールベース報酬」で代替することで、よりシンプルで堅牢、そして効率的な学習を可能にする、革新的なポリシー最適化手法と言えます。特に、数学やプログラミングのように「正解が明確に検証できる」タスクにおいて、その威力を発揮します。

Q:DeepSeekのハイブリッド思考モードについてわかりやすく説明してください

A:

19ページの内容は、AIモデルの学習において、トレーニングデータの「量」よりも「質」と「効率的な選択」が重要であるという、新たなパラダイムシフトを示唆する2つの研究成果について述べています。

要約すると以下の2点です。

高品質な推論データセット「NaturalReasoning」の活用
- この研究では、ウェブから抽出された大学院レベルの数学的・科学的な質問から、NaturalReasoning という新しいデータセット（約280万問）を構築しました。
- このデータセットは、公開されているデータセットの中で最も長い思考の連鎖（CoT、平均434語）を引き出すことができ、質の高い推論プロセスを学習させるのに適しています。
- 驚くべきことに、8B (80億) パラメータの Llama モデルを、より大規模な既存のデータセットで学習させるよりも、この NaturalReasoning の少量のデータ（0.5〜200万問）で学習させた方が、より高い精度向上を達成し、同時に必要なトークン数と計算コストを削減できることが示されました。
- 結論: 量ではなく、内容の質と深さを持つデータセットを用いることで、より効率的にAIの推論能力を向上させることが可能です。
最適な学習問題の自動選択手法「LILO」
- オックスフォード大学の研究で開発された LILO という手法は、トレーニングデータの中から、AIが最も効率的に学習できる（「学習可能性（learnability）」が高い、つまり成功の分散が大きい）質問をアルゴリズムで自動的に選び出すことができます。
- この「学習可能性」の高い質問に優先的にトレーニングすることで、LLM (Large Language Models) は最終的なテスト精度を高く保ちつつ、学習ステップ数を約3分の1に短縮できることが示されました。
- 結論: 学習効率を最大化するためには、ただデータを羅列するだけでなく、モデルが最も成長できるような「効果的な問題」を戦略的に選んで学習させることが非常に重要です。

これらの研究は、AIの能力向上において、単にデータ量を増やすだけでなく、どのようなデータを選ぶか、どのようにデータを使うかという「質」と「戦略」が、ますます決定的な要因になっていることを明確に示しています。

Q:"Parallel reasoning"についてわかりやすく説明してください

A:

「並列推論（Parallel Reasoning）」は、AIがより複雑な問題を効率的かつ正確に解決するために、一度に複数の思考経路を探索し、それらを統合するという、人間のような思考方法をAIに導入する革新的なアプローチです。

分かりやすく説明するために、少し想像力を働かせてみましょう。

人間の場合：複数の可能性を同時に考える

人間が難しい問題、例えば「どうすればこの謎を解けるだろう？」と考えるとき、しばしば「もしAの仮説が正しければ、次は何をするべきか？」「いや、Bの仮説も捨てがたい、その場合はどう進むか？」と、複数の可能性を頭の中で同時に検討したり、いくつかの異なるアプローチを試したりしますよね。そして、それぞれの可能性から得られた情報を総合して、最終的な答えを導き出します。

これまでのAIの推論：一本道を深く掘り下げる

これまでの多くのAIモデル（特に、MoE (Mixture of Experts) のように容量を増やすだけのものは、推論の仕方は変えません）の推論は、多くの場合、一度に一つの思考の道筋を深く掘り下げていくようなものでした。まるで、一本の道をどこまでも掘り進めるようなイメージです。これはこれで強力ですが、もし途中で間違った道を選んでしまうと、遠回りしたり、全く袋小路に入り込んでしまったりするリスクがありました。

「並列推論」とは？：思考の枝分かれと合流

「並列推論」は、この一本道の限界を超えようとするものです。まるで、一本の幹から複数の枝が分かれて伸びていくように、AIが同時に複数の異なる推論経路を生成し、それぞれを独立して探索することを可能にします。

「枝分かれ（spawn()）」: AIが問題を解き始める際や、特定の地点で複数の選択肢があるときに、「よし、Aの方向で考えてみよう！」「いや、Bの方向も試してみよう！」といった形で、思考のプロセスを並行して開始します。
「合流（join()）」: 各々の思考の枝がそれぞれ結論や中間結果を出したら、それらの情報を最後に集めて、最も良いと思われる答えを統合します。これは、まるで複数の専門家がそれぞれの視点から分析し、最終的に会議で合意を形成するようなものです。

具体的な技術要素とメリット

この論文で言及されている例を挙げると：

Adaptive Parallel Reasoning (APR): これはまさに「枝分かれ（spawn()）」と「合流（join()）」の操作を動的に行い、親となる思考と子の思考が連携して最適な振る舞いをするように、RL (強化学習) を使って学習させます。これにより、例えば複雑なパズルタスク (Countdown task) で、一本道の推論よりも格段に高い正答率を達成しました。
Sample Set Aggregator: これは、複数の枝分かれした推論から得られた複数のサンプル（答えの候補など）を、一つの一貫した答えに「融合（fuse）」させるための、小型のモデルです。単純な並べ替え（re-ranking）よりも賢く結果をまとめ上げます。
Gemini Deep Think: これは、このような「枝分かれ・評価」のパラダイムを実システムで示す例として挙げられており、モデルがどのようにステップバイステップで推論しているかを透明に表示できる特徴を持っています。

この「並列推論」の大きなメリットは以下の通りです。

探索の促進（Exploration）: 複数の可能性を試すことで、単一の思考パスでは見つけられなかった、より良い解決策や洞察を発見しやすくなります。
ハルシネーションの削減（Reduces hallucination）: 一つの思考が誤った方向に行っても、他の思考がそれを補完したり、誤りを指摘したりすることで、事実と異なる情報を生成するリスクを減らせます。
並列ハードウェアの活用（Better leverages parallel hardware）: 現代のGPUなどの計算資源は、複数のタスクを同時に処理するのに適しています。並列推論は、この並列処理能力を最大限に引き出し、計算効率を高めることができます。

まとめると、「並列推論」は、AIが人間のように「多角的に考え、情報を統合する」能力を身につけることで、より賢く、より信頼性の高い問題解決を可能にする、非常に有望なアプローチだと言えるでしょう。

Q:"12 months pass, and OpenAI models remain at the frontier of intelligence"のページに書かれている内容をまとめてください

A:

AIのフロンティアにおけるOpenAIの継続的なリーダーシップと、それに肉薄する競合勢力の台頭、特に中国のオープンモデルの急速な発展を簡潔にまとめています。

OpenAIのリーダーシップの維持:
- 独立したリーダーボードの評価において、OpenAI の GPT-5 系列のモデルは依然としてAI知能の最先端を走り続けています。彼らが設定したペースが、業界のベンチマークとなっています。
競争の激化と性能差の縮小:
- しかし、OpenAI と他のモデルとの性能差は著しく縮まっています。推論能力やコーディングなどの重要なタスクにおいて、数ポイント差の範囲にまで迫っているモデルが多数存在します。
主要な競合勢力:
- 中国の勢い: 中国からは、DeepSeek、Qwen、Kimi といった「open-weights（オープンソース）」モデルを提供する勢力が急速に台頭しており、その動きは非常に速いとされています。中国は「明確なNo.2」の地位を確立しています。
- 米国の競合: 米国内では、Gemini、Claude、Grok といった「closed-source（クローズドソース）」モデルを提供するグループも OpenAI に追随し、フロンティア領域で激しい競争を繰り広げています。
オープンモデルの役割:
- open-weights モデル（オープンソースモデル）は、信頼できる「fast-follower floor」を提供しています。これは、最先端の技術がすぐにオープンコミュニティにも波及し、高品質なモデルが広く利用可能になることで、全体の技術レベルの底上げと、さらなるイノベーションを加速させる役割を果たしていることを意味します。

簡潔に言えば、**「OpenAIはまだトップだが、その座は揺るぎつつあり、特に中国のオープンモデルと米国の他の大手モデルが猛追している状況である」**とまとめることができます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up