1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

普通のLLMと何が違うのか?推論モデル(Reasoning Model)を整理する

1
Posted at

はじめに

「推論モデル」という概念自体は2022年頃から研究者の間では知られていた。しかし2024年9月にOpenAIがo1をリリースして以降、一般のエンジニアが実際に触れるものとして急速に広まった。o3、DeepSeek-R1、Claude Extended Thinking……今や各社が競うように推論モデルを出している。

ChatGPTやClaudeは日常的に使っているけど、推論モデルって結局何が違うの?という疑問を持っている人も多いと思う。この記事では、LLMを使ったことがある人向けに、推論モデルの本質を整理する。


普通のLLMの動き方をおさらい

まず前提として、LLMがどう動いているかを簡単におさらいする。

LLMの基本的な動作は「次のトークンを予測する」ことだ。入力されたテキストの続きとして、最も確率の高い単語(トークン)を順番に出力していく。シンプルに言えば、 超高性能な「次の単語予測機」 である。

これで日常的な会話や要約、翻訳は十分にこなせる。しかし複雑な数学の証明や、複数ステップにまたがる論理問題になると、一発で正解を出すのは難しくなる。人間でも暗算より紙に書いて計算する方が正確なように、LLMも「一発で答える」構造には限界がある。


推論モデルは何が違うのか

推論モデルの核心は一言でいうと、「声に出して考えてから答える」 ことだ。

普通のLLMとの違いを図にするとこうなる。

普通のLLM:
質問 ──→ 即答

推論モデル:
質問 ──→「まず〇〇を考えて、でも△△だから、
           あ、違う、□□か、じゃあ…」──→ 答え

この「考えている部分」をThinking、あるいは思考トークンと呼ぶ。推論モデルはこの中間ステップを踏むことで、複雑な問題でのミスを大幅に減らせる。


Chain-of-Thoughtとの違い

ここは混同しやすいポイントなので丁寧に整理する。

「ステップバイステップで考えてください(Let's think step by step)」というプロンプトを使ったことがある人もいると思う。これはChain-of-Thought(CoT)プロンプティングと呼ばれる手法で、2022年頃から研究者の間で広く知られるようになった。

ただし、これはあくまでプロンプトによる工夫であって、モデル自体は普通のLLMのままだ。

Chain-of-Thoughtプロンプティング(古い手法):
  ユーザーが「ステップバイステップで考えてください」と指示する
  → モデルは変わらない、指示に従って出力するだけ

推論モデル(最近の話):
  訓練の段階で「じっくり考えてから答える」ように学習済み
  → モデル自体が違う

推論モデルは、「考えてから答える」という能力をモデルの訓練段階で獲得している。ユーザーが特別な指示を出さなくても、自動的に思考プロセスを踏む。

この訓練に使われているのが強化学習だ。「考えて正解したら報酬、間違えたら罰」を繰り返すことで、モデルは自然と「じっくり考える」戦略を身につけていく。


Aha moment:誰も教えていないのに自己修正が生まれた

2025年1月、DeepSeekが発表した論文「DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning」が業界に衝撃を与えた。

この論文の最も驚くべき発見は、強化学習だけで訓練したモデルが、誰にも教わっていないのに自己修正をするようになったことだ。

訓練中に起きたこと:

「この問題は〇〇だから答えはXだ」
 ↓
「……待って、さっきの前提が間違ってるかも」
 ↓
「やり直そう、△△で考えると…」
 ↓
「答えはYだ」

このような自己修正・自己反省の挙動が、設計したわけでもなく、人間が正解データを用意したわけでもなく、強化学習の試行錯誤の結果として自然発生した

研究者たちはこの現象を 「Aha moment(アハ・モーメント)」 と名付けた。

なぜ衝撃だったかというと、通常のLLM訓練は人間が用意した「良い回答」を大量に正解データとして与える。しかしDeepSeek-R1-Zeroは「正解したら報酬」というルールだけを与えられ、自分でどうすれば正解できるかを試行錯誤した結果、自己修正という戦略を自ら発明したのだ。

さらにこの論文はオープンソースで、訓練手法も全て公開された。その後、世界中の研究者が追試を行い、同じ現象が再現されることが確認されている。


主要モデルの比較

現在の主要な推論モデルを整理するとこうなる。

モデル 思考の可視性 オープン度 特徴
OpenAI o3 隠す クローズド 高精度、高コスト
DeepSeek-R1 見せる フルオープン 破格のコスト、訓練手法も公開
Claude Extended Thinking 見せる クローズド 思考と回答の一貫性を保証
Gemini 2.5 Pro 一部見せる クローズド マルチモーダルに強い

思考を「見せる」か「隠す」かは、各社の設計思想の違いを反映している。

OpenAIが思考を隠す理由の一つは、思考プロセスが見えると悪意ある誘導のリスクが高まるためとも言われている。一方Claudeは思考を見せるが、「思考と回答が矛盾してはいけない」というルールを設けており、見えている思考が本当の思考プロセスであることを保証している。


どんなタスクで使うべきか

推論モデルは万能ではない。使い分けが重要だ。

推論モデルが得意なこと

  • 数学の証明・複雑な計算
  • 競技プログラミング
  • 複数ステップの論理パズル
  • 科学的な仮説検証

普通のLLMと大差ない、または苦手なこと

  • 日常的な会話・雑談
  • 要約・翻訳
  • 簡単な質問への回答(過剰に考えすぎて遅い)
  • リアルタイム性が求められる応答

特に「考えすぎ問題(Overthinking)」は現在進行形の課題で、「2+3は?」のような簡単な質問に対して何百トークンも使って考え続けるケースが報告されている。「長く考えるほど賢い」は必ずしも成立しない。

実用上のポイントは、複雑・多段階・正確さ優先のタスクには推論モデル、スピードやコストが重要な場面では普通のLLMという使い分けだ。


まとめ

  • 推論モデルは「声に出して考えてから答える」モデルで、モデル自体が訓練段階で異なる
  • Chain-of-Thoughtプロンプティングとは別物
  • 強化学習によって「自己修正」という能力が自然発生した(Aha moment)
  • 各社で「思考を見せるか隠すか」の設計思想が異なる
  • 万能ではなく、複雑な問題に使うのが効果的

参考文献

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?