1カ月ほど前にGoogleとDeepMindが発表した、"Charformer"に関する論文を紹介します。
原論文
https://arxiv.org/abs/2106.12672
この論文では自然言語処理の前処理でよく行われている「トークン化」を自動化したモジュールを導入しています。
"Charformer"は"Character"と"Transformer"をくっつけた言葉で、文字単位の分析にTransformersの手法を応用しているようです。
Qiitaで"Charformer"と検索しても1件もヒットしなかったので、Qiita上での第一報かと存じます。
詳細な解説は私の手に余るので、以下に3点だけ重要な点を記載します。
・導入した手法:gradient-based subword tokenization(GBST) module
・標準的な英語、非標準的な英語、多言語のいずれのタスクでも既存のモデルと同等かそれ以上のパフォーマンスを達成。
・同数のパラメータを持つモデルと比較して、メモリ効率性も高い。
以下のリンクより、元論文および解説動画もご参照ください。
原論文
https://arxiv.org/abs/2106.12672
解説動画(非公式)
https://www.youtube.com/watch?v=debgj24BAZE&t=183s
了