6
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

MYJLabAdvent Calendar 2019

Day 2

Feature-base approachとFine-tuning approach

Last updated at Posted at 2019-12-01

Feature-base approachとFine-tuning approachについて

はじめに

こんにちは、myjlabのまるたくです。今回は研究室で初アドベントカレンダーにチャレンジするということで、最近読んだ論文で気になったことを話したいとおもいます。
今回読んだ論文はNLP界隈で有名なBERTという手法について書かれた論文です。この論文の中で、Feature-base approachFine-tuning approach という言葉が出てきました。どちらにも共通することは、大規模なデータで事前学習させたモデルを活用することですが、お互いに事前学習モデルの活用方法が少し違うのでそこについて調べました。

Feature-base approachとは

論文内では、Feature-base approachについて以下のように述べていました

The feature-based approach, such as ELMo (Peters et al., 2018a), uses task-specific architectures that include the pre-trained representations as additional features.

Feature-base approachは事前学習を行なったモデルの表現を既存のモデルに特徴量として組み込むことで精度の向上を図ります。ELMoと呼ばれる手法はこのFeature-base approachの代表的な例として挙げられているので、こっちの論文についてもチラッとのぞいてみました。

ELMoについて

ELMoとは、Deep contextualized word representationsという論文で提案された手法で、双方向LSTMを大規模なコーパスで学習させることで文脈を考慮した単語表現を獲得することができます。ここで獲得した単語表現を既存のモデルに組み込むことで既存のモデルの精度向上を図ります。
ELMoの中では、以下のように述べられています

We show that these representations can be easily added to existing models and significantly improve the state of the art across six challenging NLP problems, including question answering, textual entailment and sentiment analysis.

上記の通り、ELMoは既存のモデルに少し手を加えるだけで6個のNLPタスクにおいてSoTAを達成しています。僕は最近固有表現抽出をやる機会があったのでその項をみてみましたが、前のSoTAであるbiLSTM-CRFにELMoの特徴量を足して、少し工夫するだけでSoTAを達成していました。

以上のように、Feature-base approachのメリットは、大規模なコーパスで学習したモデルの特徴量を既存モデルに追加するだけで精度を向上させられる点にあると言えます。

Fine-tuning Approachとは

BERTの論文内ではFine-tuning approachについて以下のように述べています.

The fine-tuning approach, such as the Generative Pre-trained Transformer (OpenAI GPT) (Radford et al., 2018), introduces minimal task-specific parameters, and is trained on the downstream tasks by simply fine-tuning all pretrained parameters.

正直ここに書いてあることが全てなのですが、Fine-tutning Approachとはあらかじめ大規模なデータでパラメータを求めておき、タスクごとに小規模な学習データで学習を行いパラメータを微調整してあげる手法です。

ここでGenerative Pre-trained Transformerという手法が出てきたのでそれについて説明します。

Generative Pre-trained Transformerとは

Generative Pre-trained Transformer(GPT)とは、OpenAIによって発表されたImproving Language Understanding by Generative Pre-Trainingという論文の中で提案された手法です。このモデルの改良版であるGPT2は、「あまりにも本物っぽすぎるニュースを生成できるため、悪用の危険がある」ということで完全なパラメータが最近まで公開されなかったことで有名ですね。
このモデルは事前に大規模なデータを用いて学習を行い、その後タスクごとにFine-tuningを行うことでSoTAを達成しました。

以上のことからFine-tuning approachのメリットは、大規模なデータで事前学習したモデルを使用すれば小規模な学習データでFine-tuningを行うことで良い精度が挙げられる点にあると考えます。

終わりに

以上がFeature-base approachとFine-tuning approachです。あまり英語の論文を読むことに慣れていないのと、自然言語処理を真面目に勉強するようになってから日が浅いので間違いや指摘等あれば優しく指摘していただけると幸いです。
最後まで読んでいただきありがとうございました。

6
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?