o1-Like LLMsの思考の浅さを克服する—新たなデコード戦略TIPの提案

Posted at 2025-02-02

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

今回は、最新の研究成果である "Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs" という論文をご紹介します。本研究は、o1 に似た大規模言語モデル (LLMs) が 「考えの浅さ (underthinking)」 という問題を抱えていることを明らかにし、その影響を分析し、改善策を提案したものです。

論文情報

タイトル: Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
リンク: arXiv:2501.18585v1
発表日: 2025年1月30日
著者: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
所属: Tencent AI Lab, Soochow University, Shanghai Jiao Tong University
DOI: 未提供

背景と目的

近年、大規模言語モデル (LLMs) の進化により、複雑な推論が可能になっています。特に OpenAI の o1 モデル およびその類似モデル (Qwen, DeepSeek, Kimi など) は、スケーリングによる推論能力の向上 を目指しています。

LLM の推論プロセスと underthinking

LLMs は、基本的に「確率的トークン生成」に基づいて推論を行います。しかし、そのアプローチには以下の 3 つのパターンがあります。

直線的推論 (Linear Reasoning):
- 人間のように 1 つの思考を深く掘り下げ、正解を導く。
- LLM においては CoT (Chain of Thought) で再現されることが多い。
分岐的推論 (Branching Reasoning):
- 複数の解法を並列に展開し、適切なものを選択する。
- Self-consistency や Tree of Thoughts (ToT) に近い戦略。
発散的推論 (Divergent Reasoning):
- 考えを広げすぎて収束しない。
- o1-Like モデルはこの傾向が強く、underthinking の主要な原因 となる。

本論文では、この「発散的推論」が underthinking を引き起こし、正しい解法を途中で捨てる原因になっていることを明らかにしました。

実験と分析

1.「考えの浅さ」の観察

研究者たちは、以下の 3 つのデータセットを用いて、o1-Like LLM の推論パターンを分析しました。

データセット	内容
MATH500	高校数学コンテスト問題
GPQA Diamond	物理・化学・生物の大学院レベル問題
AIME2024	数学オリンピック予選問題

主な発見

誤答の方が、正答よりも 225% 多くのトークンを消費し、思考の切り替えが 418% 多い。
多くの誤答は「途中の考え方は正しかったが、十分に掘り下げられずに別の方針に移ってしまった」ために発生している。

2.「考えの浅さ」の定量化

本研究では、「Underthinking Score」 という新しい指標を導入しました。

定義

$$
\xi_{UT} = \frac{1}{N} \sum_{i=1}^{N} \left( 1 - \frac{\hat{T}_i}{T_i} \right)
$$

3.「考えの浅さ」の解決策

研究者たちは、デコード時に「思考の切り替えにペナルティを加える」 (TIP: Thought Switching Penalty) 戦略 を提案しました。

TIP のアルゴリズム

def apply_thought_penalty(logits, step, alpha, beta, switch_tokens):
    if step < beta:
        for token in switch_tokens:
            logits[token] -= alpha  # ペナルティを適用
    return logits

TIP の効果

データセット	通常の正答率	TIP 適用後
MATH500	82.8%	84.3%
GPQA	57.1%	59.3%
AIME2024	41.7%	45.8%

今後の展望

TIP の応用範囲: 文章要約、コード生成、翻訳タスクでの適用
「自己監視的推論 (Self-reflective Reasoning)」の実装
TIP の動的適用 (Adaptive TIP): タスクの種類に応じた動的制御

まとめ

この研究は、LLMs の 「考えの浅さ」 という新たな課題を明確にし、TIP という実用的な解決策を提示した画期的な研究 です。今後の LLM の推論能力向上に大きな影響を与える可能性があります。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up