論文情報
- 著者: C Huang, S Gao, Z Shi, D Wang, S Shang
- 論文概要リンク: https://arxiv.org/abs/2505.20016
- 論文PDFリンク: https://arxiv.org/pdf/2505.20016
要約
本論文は、大規模言語モデル(LLM)のツール利用能力を細粒度に向上させるためのToken-level Tool-use Preference Alignment Training Framework(TTPA)を提案する。従来の手法はツール呼び出しにおける微細なトークンレベルの誤差を十分に捉えられず、適切なツール利用の整合性向上や誤り識別に限界があった。TTPAは、ツール呼び出しのトークン単位での誤差を評価するエラー指向スコアリング機構を導入し、逆生成による高品質なマルチターンツール利用データセット構築とトークンレベルの選好サンプリングに基づいてLLMを微調整する。3つのベンチマークで高い有効性と汎化性能を示した。
主要なポイント
- 従来の教師あり微調整はトークンレベルの微細な誤差を考慮できず、ツール呼び出し品質の向上に限界がある。
- 逆生成手法によりツール利用シナリオから回答と問い合わせを生成し、解答可能かつツール呼び出しと強く連関した高品質データセットを構築。
- トークンレベルの選好サンプリングにより生成過程の確率分布の不確実性を利用し、微細な誤差を捉えた好ましい・望ましくないペアを作成。
- エラー指向スコアリング機構でツール呼び出しのフォーマットエラーからパラメータのタイプ・値誤りまで詳細に評価し、精緻な報酬信号を生成。
- Qwen2.5-7Bベースのモデルで実験した結果、ToolBench、BFCL、独自テストセットにて大幅な性能改善を確認。
メソッド
- Preference Oriented Tool-use Dataset Construction
-
Reversed Dataset Construction
従来の「クエリ→応答」生成の流れを逆転し、まずツール利用シナリオを定義し、仮想的に複数回ツールを呼び出して最終回答を生成、その回答から問い合わせを誘導的に生成する。
これにより、解不能な質問やツール情報が漏洩する問題を回避し、マルチターンかつ複合ツール利用シナリオに適した高品質データセットを作成。 -
Token-level Preference Sampling (TPS)
モデルのツール呼び出し生成の各トークンでの確率分布の上位トークン群を確率差が小さい場合にランダムサンプリングし、多様な呼び出し候補を得る。この複数候補をエラー指向スコアリングで評価し、正誤のトークンレベル差異を反映した選好ペアを構築。 -
Error-oriented Scoring Mechanism (ESM)
ツール呼び出しにおけるエラーをフォーマット誤り、ツール名誤り、必須パラメータ欠落、パラメータ名誤り、型誤り、値誤りの6種に分類し、各エラーの有無を判定する特徴的なスコアリング関数を設計。パラメータ単位でスコアを集計後、総合スコアとして学習信号に用いることで微細な誤差の影響を正確に評価。
意義・影響
- 微細なトークンレベルの誤差に着目し、トークン単位での選好データ作成とスコアリングを組み合わせることでツール呼び出し精度を抜本的に改善。
- 実世界の複合的かつマルチターンなツール利用シナリオを模した逆生成法により、実用的かつ高品質な学習データを低コストで構築可能。
- LLMのツール利用能力向上において細粒度の整合性合わせが重要であることを示し、将来的な人工汎用知能に向けた複雑な外部環境との連携強化に貢献。
- 本研究手法は動的ツールライブラリへの対応や効率的推論手法との統合が今後の課題であり、広範なアプリケーションでの活用が期待される。
図表については、本文内Figure 1にて本手法の全体構成として、Preference Oriented Tool-use Dataset Construction(逆生成+トークン選好サンプリング)とError-oriented Scoring Mechanismによる精粒度評価を示している。具体的な事例(Figure 5)やエラータイプ(Figure 2)も示され、トークンレベルの誤りがツール利用精度に与える影響を視覚的に理解できる。結果表(Table 1, 3, 4)はTTPAが多様なシナリオで一貫して高精度であることを示唆している。