1 日 1 回 論文の Abstract を DeepL 翻訳の力を借りて読んでいきます.
この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
翻訳元
Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
Abstract
訳文
自然言語表現における最近の開発には、自己教師あり学習の事前訓練を通じて膨大な量の一般領域テキストを活用する大規模で高価なモデルが伴っている. そのようなモデルをダウンストリームタスクに適用するコストのために, 事前訓練された言語表現上のいくつかのモデル圧縮技術が提案されてきた (Sun et al., 2019; Sanh, 2019). しかし, 驚くべきことに, 事前学習してコンパクトなモデルを微調整するだけという単純なベースラインは見落とされてきた. 本論文では, まず, より小さなアーキテクチャの文脈では事前訓練が依然として重要であり, 事前訓練されたコンパクトモデルを微調整することが, 並行作業で提案されているより精巧な方法に対抗できることを示す. 事前学習されたコンパクトモデルから始めて, 標準的な知識の蒸留を介して, 大規模な微調整されたモデルからタスクの知識を転送することを探求する. その結果, シンプルでありながら効果的で一般的なアルゴリズムである事前訓練蒸留は, さらなる改善をもたらす. 広範な実験を通じて, これまであまり研究されていなかった $2$ つの変数, すなわちモデルサイズとラベル付けされていないタスクデータの特性の下で, 事前訓練と蒸留の間の相互作用をより一般的に探る. 一つの驚くべき観察は, 同じデータに逐次適用した場合でも複合的な効果があるということである. 今後の研究を加速させるために, 事前訓練を受けた $24$ 個のミニチュア BERT モデルを公開する.
原文
Recent developments in natural language representations have been accompanied by large and expensive models that leverage vast amounts of general-domain text through self-supervised pre-training. Due to the cost of applying such models to down-stream tasks, several model compression techniques on pre-trained language representations have been proposed (Sun et al., 2019; Sanh, 2019). However, surprisingly, the simple baseline of just pre-training and fine-tuning compact models has been overlooked. In this paper, we first show that pre-training remains important in the context of smaller architectures, and fine-tuning pre-trained compact models can be competitive to more elaborate methods proposed in concurrent work. Starting with pre-trained compact models, we then explore transferring task knowledge from large fine-tuned models through standard knowledge distillation. The resulting simple, yet effective and general algorithm, Pre-trained Distillation, brings further improvements. Through extensive experiments, we more generally explore the interaction between pre-training and distillation under two variables that have been under-studied: model size and properties of unlabeled task data. One surprising observation is that they have a compound effect even when sequentially applied on the same data. To accelerate future research, we will make our 24 pre-trained miniature BERT models publicly available.