LREC-Coling 2024 報告書
今回の会議の焦点はLLM(大規模言語モデル)の活用方法にあります。二つの基調講演のテーマは次のとおりです。
Large Language Models and Human Cognition (大規模言語モデルと人間の認知)
Knowledge in LLM Era: Actuality, Challenge, and Potentiality (LLM時代の知識:現実、挑戦、そして可能性)
前者はLLMを利用して人間を理解することに重点を置いており、後者はLLMの現存する限界を明確にすることに専念しています。
その他の発表については、発表の数が多いため、LLM(large language model)を中心に面白そうな論文をまとめました。
- Prompt engineering関係:
1.1 Self-Explanation Prompting Improves Dialogue Understanding in Large Language Models
注:CoTはChain-of-Thoughtの略です。
この研究はSelf-Explanationというプロンプト技術を提案する。研究は対話情報抽出タスクに焦点を当て、LLMに対して、答えを出す前に発言ごとについて説明(Self-Explanation)を行うように要求しました。Self-ExplanationはCoTとは異なり、CoTはLLMにより慎重に考えるよう要求するだけですが、Self-Explanationは各発言について明確に説明することを要求します。この手法は、対話情報抽出におけるLLMの性能を大幅に向上させました。実験結果は、対話情報抽出のタスクにおいて、Self-Explanationが非常に優れた性能を達成し、CoTを大きく上回ることを示しています。Self-Explanationが、対話システム関連のタスクに優先して考慮されるべきと私は思います。
1.2 ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting
この研究は、異なる思考過程がLLMの性能に与える影響を検証しました。結論は以下の通りです:
1)思考ステップが多いほど、LLMの回答は正確になる。
2)具体的に考えるほど、LLMの回答は正確になる。
3)思考過程を先に出力し、その後に答えを出す方が正解が多い。
次に、著者はLLMに自分の思考過程を改善させ(プロンプト例:「この思考過程をより具体的に記述する」)、その後改善された思考過程に基づいて新しいデータセットを作成しました。この新しいデータセットでLLM(具体的にはLLaMA)を微調整した結果、微調整後のモデルは数学や推論の問題においてより良い性能を発揮しました。
1.3 Deconstructing In-Context Learning: Understanding Prompts via Corruption
この論文は、さまざまなプロンプト戦略がLLMの性能に与える影響を探究しています。例えば、タスク指示(task instruction)があるかないかで性能に影響があるかどうかを調べました。結果として、few-shotを除く他のプロンプト戦略がモデル性能に与える影響は大きくありませんでした。研究チームは、広範囲のLLMで実験を行いましたが、GPT-3.5やそれ以降のモデルは含まれていません。
- LLM運用:
2.1 Language Models for Text Classification: Is In-Context Learning Enough?
この研究は、広範なテキスト分類タスクにおいて、LLM(主にLLaMA)と微調整された小型モデル(t5とRoBERTa)の性能を比較しました。実験結果は、微調整された小型モデルがテキスト分類タスクにおいてより良い性能を発揮することを示しました。結論として、微調整は依然として必要です。
2.2 GPT-3.5 for Grammatical Error Correction
この論文は、複数の言語においてGPT-3.5の文法誤り修正タスクの性能を評価しました。実験結果は、言語による傾向の違いがあるものの、全体としてGPT-3.5はさまざまな言語で非常に優れた性能を示しました。この研究は、文法修正タスクにおける人間評価の重要性を強調しています。単一の正解に基づいた自動評価ではGPT-3.5の能力を過小評価してしまうからです。この研究は、文法誤り修正タスクには、より適切な自動評価方法(例えば、正解の数を増やして評価を行う)が必要であることを強調しています。
2.3 Has It All Been Solved? Open NLP Research Questions Not Solved by Large Language Models
この論文は、ミシガン大学のLIT研究室の研究者がまとめた、LLMでは未解決の研究方向についてのまとめです。この論文では、14の研究分野(例えば、多言語、推論、知識ベース)を列挙し、各研究分野に3~4の具体的な研究方向を含めています。この論文を詳細に読むことで、新しい研究方向を考える上で役立つと思います。
- 知識蒸留
3.1 Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought
この研究では、LLMが生成したCoT思考過程を用いて小型言語モデルを微調整し、小型言語モデルは専ら思考過程を出力するように訓練されました。LLMを用いて小型モデルを訓練するプロセスを知識蒸留と呼びます。テスト段階では、LLMが小型言語モデルが生成した思考過程に基づいて直接答えを出力します。結果は、この手法の性能がLLM+CoTよりも向上することを示しました。しかし、この研究ではLLMの中でFlan-T5のみに焦点を当てているため、この方法が他のLLMにも有効かどうかは不明です。この方法の利点は、LLMの使用コストを削減できる点です。なぜなら、LLMは答えを生成するだけで、思考過程を生成する必要がないからです。
3.2 Evolving Knowledge Distillation with Large Language Models and Active Learning
この論文は、テキスト分類とNER(名前付きエンティティ認識)のタスクに焦点を当てています。研究チームは、知識蒸留(LLMを用いて小型モデルを訓練する)に新しい方法を導入しました。小型モデルの訓練過程で、LLMが小型モデルの出力を評価し、その弱点に特化したデータを生成して追加の訓練を行いました。この動的な訓練方法は、より効率的で高性能であることが報告されました。
- LLMの特性
Large Language Models are Echo Chambers
この研究は、LLMがユーザーの意見に同意しやすいか否かに焦点を当てています。LLMがユーザーとの一致を過度に追求すると、ユーザーに悪影響を及ぼす可能性があります(これをエコーチェンバー効果と呼び、批判的思考力の低下を招く可能性があります)。実験では、政治的な傾向を持つツイートを用いてLLMと対話し、LLMの回答が同意的か反対的かを分析しました。結果は、LLMがユーザーの意見に同意する回数が否定する回数の3倍であることを示しました。この研究は、この現象への関心を喚起することを目指しています。
- 評価
Is Summary Useful or Not? An Extrinsic Human Evaluation of Text Summaries on Downstream Tasks
この論文は、自動要約の品質を外部評価(Extrinsic Evaluation)する手法を提案しています。内部評価とは異なり、外部評価は要約が下流タスクにおいて有効かどうかで品質を評価します。実験では、人間の被験者を2つのグループに分け、一方は要約を用いて下流タスクを解決し、もう一方は原文を用いて下流タスクを解決しました。これらの下流タスクには、質問応答(QA)、記事分類、記事類似性評価が含まれます。実験結果は、要約が記事分類と記事類似性評価の問題解決に特に有用であり、原文を使用する場合とほぼ同じ得点を得たが、問題解決にかかる時間は約50%短縮されたことを示しました。しかし、QA問題では、要約のみを参照した実験グループの成績は良くありませんでした。