GeM-CoT論文
note
Generalizable Chain-of-Thought Prompting in Mixed-task Scenarios with
Large Language Models
https://arxiv.org/abs/2310.06692
1. 序論:
- LLM は CoT プロンプトによって優れた推論能力を示すが、既存手法は汎用性と性能の両立が難しい。
- 特定タスク向けの手法は性能は高いが汎用性に欠け、汎用的な手法は性能が低い。
- 実際には、入力質問の種類が未知である混合タスクシナリオに LLM が直面することが多い。
- 本研究では、汎用性と性能のトレードオフを考慮し、実用的な CoT プロンプト機構 GeM-CoT を提案する。
2. 関連研究:
- CoT プロンプトとタスク横断的な汎化に関する既存研究を紹介。
- CoT プロンプトは、汎用的な Zero-Shot-CoT とタスク特化型の Few-Shot-CoT に大別される。
- 既存研究はタスク特化型に偏っており、汎用化の追求が不足している。
3. 混合タスクシナリオにおける汎用的な CoT に向けて:
- 混合タスクシナリオの概念を定義: 入力質問の種類が未知で、複数のタスクからデータが混在し、質問の順序も任意である。
- 予備実験を通して、混合タスクシナリオにおける課題を明らかにする。
4. GeM-CoT:
- GeM-CoT のアーキテクチャとフローチャートを図示し、各モジュールを詳細に説明。
- GeM-CoT は、入力質問を種類ごとに異なるパスにルーティングする。
- マッチング成功時はデモプールからデモンストレーションを取得し、推論を行う。
- マッチング失敗時は Zero-Shot 推論を行い、データをキャッシュに保存し、密度ベースクラスタリングでデモを自動構築する。
5. 実験:
- 10 個の推論タスクと 23 個の BBH タスクを用いて GeM-CoT を評価。
- GeM-CoT は、既存手法と比較して、汎用性と性能の両面で優れていることを示す。
- BBH データセットでは、ストリーミング設定での安定性と汎化能力も検証。
6. 分析:
- デモンストレーション選択手法の影響を分析し、多様性の重要性を示す。
- Type Matching モジュールの効果を検証し、汎用化における役割を明らかにする。
- マッチングしきい値の選択について分析し、妥当性を示す。
7. 結論:
- 混合タスクシナリオという新しい設定を提案し、GeM-CoT という汎用的な CoT プロンプト機構を提案した。
- 実験結果から、GeM-CoT は性能と汎用性の両立を実現することを示した。
- 今後の研究では、推論プロセスの改善や、より効率的なデモンストレーション選択手法の開発などが考えられる。
付録:
- 実験の詳細やデータセット情報、LLM ベース分類器の詳細などを補足。
- ケーススタディとエラー分析を通して、GeM-CoT の解釈可能性を検討。
この論文は、大規模言語モデル (LLM) における連鎖的な思考プロンプト (Chain-of-Thought Prompting: CoT) について、特に混合タスクシナリオにおける汎用化を目指した新しい手法 GeM-CoT を提案している。
この論文は、LLM の実用化に向けて重要な課題である混合タスクシナリオにおける CoT プロンプトの汎用化に焦点を当て、GeM-CoT という新しい手法を提案している。実験結果から、GeM-CoT は既存手法と比較して優れた性能と汎用性を示している。