1. 概要
自然言語処理(NLP)では、大量のラベル付けされていないデータで学習された言語モデル(LM)は、近年大規模化を遂げてLLMとして目覚ましい進展を遂げている。従来のNLPでは言語モデルをタスクに関連するテキストで継続的に事前学習させ続けることで、その後個別のタスクでファインチューニングする際の性能が向上すると考えられてきた。
この研究では、LLMでも同様の議論ができるか再考しており、結果として従来の継続学習は必ずしも有効でないことを示している。そこで、プロンプトベースの継続学習(PCP: Prompt-based Continued Pre-training)を提案しており、タスクに特化したファインチューニングを行う前に、タスクに関連するテキストとプロンプトテンプレートの両方を入力として教師なし事前学習の目的関数を通じてLLMに入力することで、性能向上させることに成功している。
2. 新規性
LLMでは従来のNLPと異なり、継続学習が必ずしも有効でないことを示した。テキストセンテンスをペアで与えるタスクやプロンプトベースのファインチューニングでは、継続学習は悪影響を与える可能性があることを明らかにした。
3. 実現方法
様々なLLMのファインチューニングを比較評価している。
まず、単一文タスク8種類とセンテンスペアタスク8種類のデータセットをデータセットを用いて、LLMをラベル付けされていない大量のテキストで事前学習する(教師なし学習)。次に、タスクに関連するテキストとプロンプトのテンプレートを教師なし事前学習の目的関数として用いて、LLMを継続的に学習させる。その後、個別のタスクに対して事前学習済みモデルをファインチューニングする。
4. 結果
PCPは、従来の継続学習よりもプロンプトベースのファインチューニングと組み合わせた場合に特に効果を発揮することが分かった。また、21種類のベンチマークを使用した実証評価を行っており、わずか数百個のラベル付けされていない事例のみを利用して、従来のプロンプトベースのファインチューニング手法の性能を大幅に向上させることができている。提案手法は、半教師有りと完全教師有の両方の学習手法で効果を発揮することが示されている。
Paper URL: https://openreview.net/forum?id=s7xWeJQACI
last updates: May. 17 2024