GeM-CoT論文

Posted at 2024-10-10

GeM-CoT論文

note
Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with
Large Language Models
https://arxiv.org/abs/2310.06692

1. 序論:

LLM は CoT プロンプトによって優れた推論能力を示すが、既存手法は汎用性と性能の両立が難しい。
特定タスク向けの手法は性能は高いが汎用性に欠け、汎用的な手法は性能が低い。
実際には、入力質問の種類が未知である混合タスクシナリオに LLM が直面することが多い。
本研究では、汎用性と性能のトレードオフを考慮し、実用的な CoT プロンプト機構 GeM-CoT を提案する。

2. 関連研究:

CoT プロンプトとタスク横断的な汎化に関する既存研究を紹介。
CoT プロンプトは、汎用的な Zero-Shot-CoT とタスク特化型の Few-Shot-CoT に大別される。
既存研究はタスク特化型に偏っており、汎用化の追求が不足している。

3. 混合タスクシナリオにおける汎用的な CoT に向けて:

混合タスクシナリオの概念を定義: 入力質問の種類が未知で、複数のタスクからデータが混在し、質問の順序も任意である。
予備実験を通して、混合タスクシナリオにおける課題を明らかにする。

4. GeM-CoT:

GeM-CoT のアーキテクチャとフローチャートを図示し、各モジュールを詳細に説明。
GeM-CoT は、入力質問を種類ごとに異なるパスにルーティングする。
マッチング成功時はデモプールからデモンストレーションを取得し、推論を行う。
マッチング失敗時は Zero-Shot 推論を行い、データをキャッシュに保存し、密度ベースクラスタリングでデモを自動構築する。

5. 実験:

10 個の推論タスクと 23 個の BBH タスクを用いて GeM-CoT を評価。
GeM-CoT は、既存手法と比較して、汎用性と性能の両面で優れていることを示す。
BBH データセットでは、ストリーミング設定での安定性と汎化能力も検証。

6. 分析:

デモンストレーション選択手法の影響を分析し、多様性の重要性を示す。
Type Matching モジュールの効果を検証し、汎用化における役割を明らかにする。
マッチングしきい値の選択について分析し、妥当性を示す。

7. 結論:

混合タスクシナリオという新しい設定を提案し、GeM-CoT という汎用的な CoT プロンプト機構を提案した。
実験結果から、GeM-CoT は性能と汎用性の両立を実現することを示した。
今後の研究では、推論プロセスの改善や、より効率的なデモンストレーション選択手法の開発などが考えられる。

付録:

実験の詳細やデータセット情報、LLM ベース分類器の詳細などを補足。
ケーススタディとエラー分析を通して、GeM-CoT の解釈可能性を検討。

この論文は、大規模言語モデル (LLM) における連鎖的な思考プロンプト (Chain-of-Thought Prompting: CoT) について、特に混合タスクシナリオにおける汎用化を目指した新しい手法 GeM-CoT を提案している。
この論文は、LLM の実用化に向けて重要な課題である混合タスクシナリオにおける CoT プロンプトの汎用化に焦点を当て、GeM-CoT という新しい手法を提案している。実験結果から、GeM-CoT は既存手法と比較して優れた性能と汎用性を示している。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up