1. 概要
大規模言語モデル(LLM)の登場により、これまでの小規模なモデルには見られない能力が発現していることを明らかにした論文。ここで、”Sharpness”(鮮明さ)と”Unpredictability”(予測不能性)という2つの側面からLLMの能力について調査しており、"Sharpness"は小さなモデルでは存在しない能力が大規模なモデルになったとたん突如として現れることを指しており、”Unpredictability”は予測できないほど大きくなるモデルのスケールによって現れることを指している。
実験では、特定のタスクとモデルにおいて、固定されたモデルの出力を分析したところ、LLMの能力はスケールの変化ではなく、研究者が選んだ評価基準であるメトリックスによるものであることを発見した。つまり、研究者が選んだ評価基準によって、非線形または不連続なメトリックスが大規模言語モデルが小規模なモデルには見られない”Sharpness”や”Unpredictability”といった能力を見かけ上発現させているとしている。また、線形または連続なメトリックスを選定した場合には、なめらかで連続的で予測可能な変化をもたらすことが示されている。
*Oral Paper
2. 新規性
”Sharpness”や”Unpredictability”といった大規模言語モデル特有の能力とされていたものが、実はモデルのスケールとは関係なく、評価基準の選択によって生じているに過ぎないことを明らかにした。具体的な例として、異なる種類のメトリックスを選択することで、性能が急激に変化することがあり、これがLLMの新たな能力として観察された理由だと考えられる。
3. 実現方法
実験では、異なる種類のメトリックスがモデルの性能に与える影響を調査するため、(A)トークンごとのクロスエントロピーロス、(B)トークンの正確な選択確率、(C)研究者が設定する非線形なメトリックス(e.g. Accuracy)、(D)研究者が設定する不連続なメトリックス(e.g. Multiple Choice Grade)、(E)非線形なメトリックスから線形なメトリックスに変化させるもの(e.g. Token Edit Distance)、(F)不連続なメトリックスから連続なメトリックスへ変化させるもの(e.g. Brier Score)をそれぞれ評価した。特に、(E)と(F)は異なるメトリックスを用いることでモデルの基本的な振る舞いではなく、メトリックスの選択によって引き起こされるかどうかを確かめている。
4. 結果
InstructGPT/GPT-3を用いた実験において、LLMの新たな能力とされた”Sharpness”や”Unpredictability”が、異なるメトリックスを用いることで影響を受け、スケールに依存せずメトリックスの選択によって解釈が変わることを確認した。
また、BIG-Benchでの実験においても同様の傾向が見られたことから、大規模言語モデルのスケーリングに基づく能力の発現ではなく、メトリックスの選択に依存する可能性が示唆されている。
Paper URL: https://openreview.net/pdf?id=ITw9edRDlD
last updates: Jan 5 2024