読んだ論文
本記事は以下の論文を読んだ際に記録した要約とメモです。
この論文は、BERTは自然言語処理に革命をもたらしたモデルで、テキストデータの高度な解析に役立ちます。経済データのテキストマイニングや感情分析などにも応用できます。
要約とメモ
abstract
- BERTという新しい言語表現モデルを紹介するね!
- BERTは
Bidirectional Encoder Representations from Transformers(トランスフォーマーからの双方向エンコーダー表現)
の頭文字をとったものです
- BERTは
- 一方向性という問題を緩和することで、精度改善したんだ!
1. Introduction
- 言語モデルの事前学習は、多くの自然言語処理タスクの改善に有効であることが示されている
- Dai and Le, 2015
- Peters et al., 2018a
- Radford et al., 2018
- Howard and Ruder, 2018
- 事前に訓練された言語表現を下流のタスクに適用するための既存の戦略は、特徴ベース
feature-based
と微調整fine-tuning
の2つ- ELMo (Peters et al., 2018a)のような特徴ベースのアプローチは、追加特徴として事前に訓練された表現を含むタスク固有のアーキテクチャを使用する
- Generative Pre-trained Transformer (OpenAI GPT) (Radford et al., 2018)のような微調整アプローチは、最小限のタスク固有のパラメータを導入し、全ての事前学習済みパラメータを微調整するだけで、下流のタスクで学習される
- 特に微調整
fine-tuning
においては、一方向性(unidirectional)が精度改善のボトルネックになっている- 一方向性とは、モデルが文の一方向(例えば左から右)にしか情報を処理しないこと
- 例えばGPTのモデルでは、文を左から右に読むようにトークン(単語や文字)を処理していて、各トークンは前のトークンしか参照できないという特徴を持ちます
- BERTは双方向エンコーダー表現という意味で、この一方向性の問題を緩和しようとしているよ!
- コードと事前学習済みモデル公開しているよ
- https://github.com/google-research/bert
2. 関連研究
特徴ベースfeature-based
と微調整fine-tuning
の2つにわけて紹介してくれている。原著論文参照してください
3. BERT
BERTの説明
4. experiments
一般言語理解評価(GLUE)で評価したときに、GPT3に比べても良い結果だった