【論文毎日読んでみる #3】GPT-3の論文【"GPT-3: Language Models are Few-Shot Learners" (Brown et al., 2020)】

Posted at 2024-06-30

読んだ論文

GPT-3は、少ないデータからでも高精度の予測や生成が可能なモデルです。

GPT-3（Generative Pre-trained Transformer 3）は、OpenAIによって開発された大規模な言語モデルであり、1750億個のパラメータを持つ
トランスフォーマーアーキテクチャに基づいており、事前に大量のテキストデータで学習され、様々な自然言語処理タスクに対応できる

NLPは、タスクに特化した表現の学習やタスクに特化したアーキテクチャの設計から、タスクにとらわれない事前学習やタスクにとらわれないアーキテクチャの使用へとシフトしている
- このシフトにより、読解、質問応答、テキストの含意など、多くの困難なNLPタスクが大幅に進歩した
大まかに言えば、NLPタスクにおいて、GPT-3はゼロショットとワンショットの設定で有望な結果を達成し、少数ショットの設定では、(微調整されたモデルによって最先端が保持されているにもかかわらず)最先端のモデルと競合する、あるいはそれを上回ることさえある

ゼロショット、ワンショット、少数ショット（Few-Shot）は、機械学習や自然言語処理（NLP）におけるモデルの学習と評価の設定を指す用語で、それぞれ異なるトレーニングデータの利用方法を表しています。

定義: モデルが事前に特定のタスクに関するトレーニングデータを一切受け取らずに、未知のタスクを直接処理する設定
例: モデルに一度も見たことのない翻訳タスクを与え、そのタスクに対する適切な出力を生成させる。例えば、英語からフランス語への翻訳を事前に学習していないモデルにその翻訳をさせること
用途: ゼロショット設定は、汎用性の高いモデルを評価するために使用されます。新しいタスクやドメインに迅速に適応できるかどうかを確認するための方法です

定義: モデルが特定のタスクに対して、数個の例を用いて学習し、その後にタスクを実行する設定
例: モデルに英語からフランス語への翻訳の例を数個（例えば、5つ）見せ、その後に他の英語文をフランス語に翻訳させる
用途: 少数ショット設定は、限られた情報から新しいタスクを学習するモデルの能力を評価するために使用されます。ゼロショットよりも少し多くの情報を与えることで、モデルの適応能力を確認します

例えば、言語モデルに対して、次のようなタスクを設定するとします。

ゼロショット例
- 「Translate the following English sentence to French: 'The cat is on the mat.'」
- モデルは事前に英仏翻訳の例を一切見たことがない状態で、翻訳を試みる
ワンショット例
- 「Translate the following English sentence to French: 'The cat is on the mat.'」
- 「Example: 'The dog is on the rug.' -> 'Le chien est sur le tapis.'」
- モデルは1つの翻訳例を見た後に、新しい文の翻訳を試みる。
少数ショット例
- 「Translate the following English sentence to French: 'The cat is on the mat.'」
- 「Examples: 'The dog is on the rug.' -> 'Le chien est sur le tapis.' 'The bird is in the cage.' -> 'L'oiseau est dans la cage.'」
- モデルは複数の翻訳例を見た後に、新しい文の翻訳を試みる。

これらの設定を通じて、GPT-3のような言語モデルがどれだけ効率的に学習し、適応できるかを評価することができます。GPT-3は特に、これらの少数ショット設定で非常に高いパフォーマンスを示すことで注目されています。

BARTは事前学習とファインチューニングのパラダイムに基づいており、特定のタスクに対して高い性能を発揮するためには十分なラベル付きデータが必要
GPT-3は非常に大規模な事前学習を行い、プロンプトベースでタスクを指定するだけで、多様なタスクに高い性能で対応できる点が特徴です。これにより、GPT-3は少数ショット学習の分野で革新的なモデルとされています
- だからプロンプトエンジニアリングが効果的なのかも！