0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLMの推論精度を劇的に向上!クリティカルトークンを活用した新手法cDPOの詳細解説

Posted at

Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability

大規模言語モデル(LLM)の推論能力を根本的に向上させる新しい研究「Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability」をご紹介します。本研究は、「クリティカルトークン」と呼ばれる推論誤差の原因となるトークンを特定し、それを活用してモデルの性能を劇的に向上させる革新的なアプローチを提案しています。


論文情報

  • タイトル: Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM’s Reasoning Capability
  • リンク: arXiv:2411.19951
  • 発表日: 2024年11月29日
  • 著者: Zicheng Lin, Tian Liang, Jiahao Xu, Xing Wang, Ruilin Luo, Chufan Shi, Siheng Li, Yujiu Yang, Zhaopeng Tu
  • DOI: 未記載

背景と目的

LLMの推論タスクにおける課題

LLMは、自然言語処理の多くの分野で革新をもたらしましたが、特に数学的推論や複雑な論理的思考を要するタスクでは、依然として精度が不十分な場合があります。その主な原因の一つが「誤ったトークン生成」です。

例えば、以下のような問題があります:

  • クリティカルトークンの影響:
    「Mathildaが友人に借りたお金を返済しようとし、最初に$125を支払い、残りの75%を返済する必要がある場合、元々いくら借りていたか」という問題では、"owed"(借りた)と"paid"(支払った)を誤って解釈することで、誤答に繋がることが多いです。

従来手法の限界

DPO(Direct Preference Optimization)の課題

  • ポジティブとネガティブな例を比較してモデルを調整する方法ですが、例全体の比較に基づくため、個々のトークンの重要性を考慮できない。
  • 推論タスクでは、誤りの原因が特定のトークンに集中するため、このアプローチでは誤りの根本原因を特定できない。

研究目的

本研究は、以下の2つの課題に答えることを目的としています:

  1. 推論タスクにおいて、どのトークンが結果を誤らせる原因となるのか?
  2. そのトークンを活用してモデルの精度をどのように向上させられるか?

提案手法

Contrastive Direct Preference Optimization(cDPO)

cDPOは、推論誤差の原因となるトークンを特定し、それをモデルの調整に反映させる新しい手法です。従来のDPOをトークンレベルに拡張し、より細かい調整を可能にしました。

コントラスト推定(Contrastive Estimation)の仕組み

cDPOでは、ポジティブモデル(正しい推論経路を学習)とネガティブモデル(誤った推論経路を学習)のトークン生成確率を比較し、クリティカルトークンを特定します。

数式:
$$
s_t = (1 + \beta) \log p(y_t | x, y_{<t}) - \beta \log q(y_t | x, y_{<t}) - \log Z
$$
ここで、$p$はポジティブモデル、$q$はネガティブモデルの生成確率を示し、$s_t$はトークン$t$のスコアを表します。

低い$s_t$を持つトークンは、誤りに寄与している可能性が高いとみなされ、クリティカルトークンとして分類されます。

トークンレベルの報酬最適化

cDPOでは、トークンレベルでのスコアリングを活用し、クリティカルトークンにペナルティを与える一方で、正しい推論を促進するトークンには正の報酬を与えます。


実験の概要と結果

データセット

  1. GSM8K: 小学生レベルの数学問題(例:割合計算、数列)。
  2. MATH500: 大学レベルの高度な数学問題(例:微分積分、確率論)。

ベースライン手法との比較

  • DPO: 例全体を対象にした最適化手法。
  • Token-DPO: トークンレベルでのKLダイバージェンスを導入。
  • RPO: 繰り返し推論を考慮した最適化手法。

実験結果

  1. GSM8K:
    • 提案手法(cDPO)は平均精度77.2%を達成。
    • ベースライン(DPO: 56.4%、RPO: 67.5%)を大きく上回りました。
  2. MATH500:
    • 平均精度33.4%を記録し、特にLlama-3-70Bで45.6%の最高スコアを達成。

考察と今後の展望

提案手法の意義

  • 推論誤差の原因をトークン単位で特定することで、精度向上が可能。
  • 数学以外のタスク(法的文書、医療診断など)への応用可能性が高い。

今後の課題

  1. 高い計算コストを要する点を改善。
  2. 他のタスクでの一般化性能を検証する必要性。

この記事が皆さんの研究や実務に役立つことを願っています。ご質問やフィードバックがありましたら、コメント欄にお寄せください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?