0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

o1-Like LLMsの思考の浅さを克服する—新たなデコード戦略TIPの提案

Posted at

Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs

今回は、最新の研究成果である "Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs" という論文をご紹介します。本研究は、o1 に似た大規模言語モデル (LLMs) が 「考えの浅さ (underthinking)」 という問題を抱えていることを明らかにし、その影響を分析し、改善策を提案したものです。

論文情報

  • タイトル: Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs
  • リンク: arXiv:2501.18585v1
  • 発表日: 2025年1月30日
  • 著者: Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
  • 所属: Tencent AI Lab, Soochow University, Shanghai Jiao Tong University
  • DOI: 未提供

背景と目的

近年、大規模言語モデル (LLMs) の進化により、複雑な推論が可能になっています。特に OpenAI の o1 モデル およびその類似モデル (Qwen, DeepSeek, Kimi など) は、スケーリングによる推論能力の向上 を目指しています。

LLM の推論プロセスと underthinking

LLMs は、基本的に「確率的トークン生成」に基づいて推論を行います。しかし、そのアプローチには以下の 3 つのパターンがあります。

  1. 直線的推論 (Linear Reasoning):

    • 人間のように 1 つの思考を深く掘り下げ、正解を導く。
    • LLM においては CoT (Chain of Thought) で再現されることが多い。
  2. 分岐的推論 (Branching Reasoning):

    • 複数の解法を並列に展開し、適切なものを選択する。
    • Self-consistency や Tree of Thoughts (ToT) に近い戦略。
  3. 発散的推論 (Divergent Reasoning):

    • 考えを広げすぎて収束しない。
    • o1-Like モデルはこの傾向が強く、underthinking の主要な原因 となる。

本論文では、この「発散的推論」が underthinking を引き起こし、正しい解法を途中で捨てる原因になっていることを明らかにしました。


実験と分析

1.「考えの浅さ」の観察

研究者たちは、以下の 3 つのデータセットを用いて、o1-Like LLM の推論パターンを分析しました。

データセット 内容
MATH500 高校数学コンテスト問題
GPQA Diamond 物理・化学・生物の大学院レベル問題
AIME2024 数学オリンピック予選問題

主な発見

  • 誤答の方が、正答よりも 225% 多くのトークンを消費し、思考の切り替えが 418% 多い。
  • 多くの誤答は「途中の考え方は正しかったが、十分に掘り下げられずに別の方針に移ってしまった」ために発生している。

2.「考えの浅さ」の定量化

本研究では、「Underthinking Score」 という新しい指標を導入しました。

定義

$$
\xi_{UT} = \frac{1}{N} \sum_{i=1}^{N} \left( 1 - \frac{\hat{T}_i}{T_i} \right)
$$


3.「考えの浅さ」の解決策

研究者たちは、デコード時に「思考の切り替えにペナルティを加える」 (TIP: Thought Switching Penalty) 戦略 を提案しました。

TIP のアルゴリズム

def apply_thought_penalty(logits, step, alpha, beta, switch_tokens):
    if step < beta:
        for token in switch_tokens:
            logits[token] -= alpha  # ペナルティを適用
    return logits

TIP の効果

データセット 通常の正答率 TIP 適用後
MATH500 82.8% 84.3%
GPQA 57.1% 59.3%
AIME2024 41.7% 45.8%

今後の展望

  • TIP の応用範囲: 文章要約、コード生成、翻訳タスクでの適用
  • 「自己監視的推論 (Self-reflective Reasoning)」の実装
  • TIP の動的適用 (Adaptive TIP): タスクの種類に応じた動的制御

まとめ

この研究は、LLMs の 「考えの浅さ」 という新たな課題を明確にし、TIP という実用的な解決策を提示した画期的な研究 です。今後の LLM の推論能力向上に大きな影響を与える可能性があります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?