大規模言語モデル(LLM)は、複雑な問題に対して詳細なステップバイステップの解決プロセスを提供し、あたかも真の知能を備えているかのような印象を与えます。しかし、少し異なる問題に直面すると、的外れな答えを出すこともあり、その能力の真髄は未だ謎に包まれています。LLMの推論能力が、単なる大量データに基づくパターンマッチングなのか、それとも真の知能の創発なのかについては、学術界と産業界で議論が続いています。
本稿では、Google DeepMindのデニー・ジョウ氏のスタンフォード大学での講義に基づき、LLMの推論能力の技術的な進化を体系的に解説します。ジョウ氏とそのチームは、思考連鎖プロンプティングや**自己無矛盾性(Self-Consistency)**といった画期的な技術を確立し、GoogleのGeminiモデルにおける推論能力構築に深く関わってきました。この文書を通じて、一見魔法のように見えるLLMの推論能力の背後にある、シンプルかつ深遠な原理を理解することを目指します。
1. 推論の定義:中間ステップの生成
デニー・ジョウ氏のチームでは、モデルの推論を非常に具体的かつ操作可能な形で定義しています。それは、「モデルの入力(質問)と最終出力(答え)の間に生成される全ての中間ステップ」です。
この定義の重要性を理解するために、「末尾文字連結」というタスクを考えてみましょう。
例:「artificial intelligence」という2つの単語の末尾文字を連結してください。
- 
直接出力の場合: モデルは言語の慣性に基づいて「LE」のような答えを直接推測する可能性があります。これは単なる次の文字予測であり、多段階の論理操作ではありません。 
- 
中間ステップを生成する場合: モデルは以下のように出力します。 - 「artificial」の最後の文字は「L」です。
- 「intelligence」の最後の文字は「E」です。
- 「L」と「E」を連結すると「LE」になります。
 これがジョウ氏が定義する推論であり、複雑なタスクを一連の単純な実行可能なサブタスクに分解し、最終的な答えを導き出しています。
 
なぜ中間ステップが重要なのか?
ジョウ氏は、人間が問題を解決するように「まず考えてから答える」というアプローチをLLMに模倣させることの重要性を強調しています。彼らのスタンフォード大学との共同研究では、「Tサイズのブール回路で解決可能なあらゆる問題に対して、一定サイズのTransformerモデルはOT長の中間ステップを生成することで問題を解決できる」という強力な結論が得られました。
これは、たとえ比較的単純なTransformerモデルであっても、十分に長い「思考プロセス」(中間ステップ)を生成することを許可すれば、ほぼ全ての計算可能な問題を解決する可能性を秘めていることを意味します。逆に、モデルに最終答えを直接出力させようとすると、ネットワーク深度自体が計算プロセス全体を模倣できるほどの巨大さが必要になるか、あるいは問題解決が根本的に不可能になる可能性があります。
したがって、モデルに中間ステップを生成させることは、計算原理上、複雑な問題を解決する能力を解き放つための鍵なのです。
2. 思考連鎖デコード:モデル内部の推論パスを発見する
当初、多くの人は、事前学習済みモデルは高度なプロンプトや微調整なしには推論できないと考えていました。しかし、デニー・ジョウ氏は、「事前学習済みモデルはすでに推論する準備ができており、必要なのはデコードプロセスを変更することだけだ」と述べ、この見方を覆しました。
貪婪デコードの限界
典型的なLLMのデコード方式は**貪婪デコード(Greedy Decoding)**であり、これは各単語を生成する際に、常に現在最も確率の高い単語を選択します。
例:「リンゴを3つ持っています。父は私より2つ多く持っています。私たちは全部でいくつのリンゴを持っていますか?」
この問題を原始的な事前学習済みモデルに貪婪デコードで入力すると、モデルは「3つ」と「2つ多い」から直接「5つ」を連想し、誤った答え(例:5個のリンゴ)を直感的に出力する可能性が高いです。
隠された推論パスの発見
しかし、ジョウ氏は、モデルの出力確率分布には、最も確率の高いオプションだけでなく、次に高い、その次に高いといった他のオプションも存在することを示しました。これらの隠された候補パスを探索すると、驚くべきことが起こります。
例えば、上記のリンゴの問題に対して、モデルは異なるパスで以下のような出力を生成する可能性があります。
- 候補2:「私は3つのリンゴを持っています。父は私より2つ多く持っているので、彼は5つのリンゴを持っています。3 + 5 = 8。なので、私たちは全部で8つのリンゴを持っています。」(完璧な推論連鎖と正しい答え)
- 候補4:「あなたは3つのリンゴを持っています。あなたのお父さんは3+2=5つのリンゴを持っています。あなた方は全部で3+5=8つのリンゴを持っています。」(明確な推論連鎖と正しい答え)
このように、正しい推論パスは常にモデルの出力空間に存在しているのです。貪婪デコードは最も分かりやすい道を選んでしまうため、これらの隠れたパスを見逃していたに過ぎません。
最終答えの「置信度」
ジョウ氏のチームは、正しい思考連鎖を含む回答の場合、モデルが最終答えの単語(例:数字の「8」)を生成する際の内部的な「置信度」(確率)が異常に高くなるという現象を発見しました。これは、あたかも人間が深く考えた後に、自分の結論に強い確信を持つかのようです。
この発見は思考連鎖デコードと呼ばれ、その核となる2つのステップは以下の通りです。
- 貪婪デコードを超越し、より多くの候補出力を生成・検証する。
- 最終答えに対する置信度が最も高い候補を選択する。
3. プロンプトエンジニアリング:推論能力を引き出す「呪文」
思考連鎖デコードは効果的ですが、コード記述が必要であり、一般ユーザーには不便です。そこで研究者たちは、自然言語を用いてモデルの出力確率分布を再構築し、思考プロセスを含む優れた回答が自動的に上位に来るようにする方法を模索し始めました。これが、私たちがよく知るプロンプトエンジニアリング技術につながります。
思考連鎖プロンプティング (Chain-of-Thought Prompting)
最も有名なのは**思考連鎖プロンプティング(CoT Prompting)**です。これは非常に直感的な方法です。
- 実践方法: 質問をする前に、モデルに類似の「問題 → 思考プロセス → 答え」の例を1つか2つ見せる。
- 効果: モデルは与えられた例のスタイルを模倣し、自動的に段階的な分析を開始し、詳細な解決ステップを生成します。確率分布の観点から見ると、提供された例は、モデルが思考プロセスを生成する傾向の確率を大幅に高め、それまで隠れていた正しい推論パスを最前面に押し出します。
- 課題: 異なる種類のタスクに対して高品質な例を手動で作成する必要があり、手間がかかります。また、類似の問題の解き方を知っているなら、そもそもAIに尋ねる必要がないという問題もあります。
「段階的に考えよう」(Let's think step by step)
この課題を解決するために、さらに驚くべきプロンプトが登場しました。それが、「Let's think step by step(段階的に考えよう)」というゼロショットプロンプトです。
デニー・ジョウ氏自身も、このシンプルなフレーズを問題の後に加えるだけでモデルが思考を開始するとは信じがたかったと述べています。しかし、彼のテストでは、訓練データにこの「呪文」に対する最適化が一切行われていなかったにもかかわらず、モデルは実際に段階的な解決プロセスを出力し始めたのです。
この発見は、非常に汎用的な方法でモデルの推論能力を活性化できることを証明しました。しかし、真の知能体であれば、外部の「呪文」なしに自ら思考すべきだという期待とは異なる側面も残っています。
まとめ
本稿では、デニー・ジョウ氏のLLM推論能力に関する研究を深堀りし、推論を進化させるための様々な手法(思考連鎖プロンプティング、自己無矛盾性、強化学習微調整など)について解説しました。これらの技術の背後には、モデルが自ら思考する能力を引き出すためのシンプルで深遠な原理が存在します。
