この記事は、2018年末現在、自然言語処理AIにおける最先端のディープラーニングモデルであるBERTについて、提供元であるgoogle-researchのgithubレポジトリのREADME記載内容のうち、更新履歴の部分を随時翻訳するものです。
※githubレポジトリのREADMEの初稿部分の翻訳は、別の記事にあります。
※日本語の処理に使用するには、Multilingual READMEの翻訳記事も参照ください
BERTは、種類の異なる様々な自然言語処理タスクで最高成績を叩きだした優れモノで、
しかも転移学習のベースにすれば少ない学習のみで個々の問題を正確に解ける可能性がある「革命的」な技術と聞き、使ってみるついでに翻訳しています。
2018年11月23日
Un-normalized multilingual model + Thai + Mongolian :正規化なしの多言語モデル+タイ語+モンゴル語
入力に対していかなる正規化も行っていない新しい多言語モデルをアップロードしました(小文字化、アクセントマークの削除、Unicode正規化のいずれも行っていない)、そしてタイ語とモンゴル語にも対応しました。
多言語モデルを開発するにはこのバージョンを使用することを推奨します。特にラテン文字でないアルファベット1を使用する言語においては。コードの変更は不要で、下記からダウンロードできます:
BERT-Base, Multilingual Cased: 104 languages, 12-layer, 768-hidden, 12-heads, 110M parameters
2018年11月15日
SOTA SQuAD 2.0 System:最先端のSQuAD 2.0システム
SQuAD 2.0システムにおける83% F1スコアを再現するためにコード変更を提供しました。それは、現在のところLEADERBOARDにおいて3%差で1位です。詳しくは、SQuAD 2.0セクションを見てください。
2018年11月5日
Third-party PyTorch and Chainer versions of BERT available:BERTのPyTorch版及びChainer版がサードパーティによって利用可能に
HuggingFaceの研究者がPyTorch版のBERTを利用可能にしました。我々が事前学習したチェックポイントと互換性があり、結果の再現ができます。Sosuke KobayashiがChainer版のBERTを利用可能にしました(ありがとう!)。我々はPyTorch版の作成や維持にかかわっていませんので、質問は直接作者にコンタクトください。
2018年11月3日
Multilingual and Chinese models available:多言語モデル及び中国語モデルが利用可能に
2つの新しいBERTモデルが利用可能になりました:
- BERT-Base, Multilingual (Not recommended, use Multilingual Cased instead): 102 languages, 12-layer, 768-hidden, 12-heads, 110M parameters
- BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
中国語では文字ベースのトークン化を用いています。中国語以外の言語ではWordPieceのトークン化を用いています。両方のモデルともコード変更なしにすぐに動かせます。中国語のトークン化をサポートするためにtokenization.py
中のBasicTokenizer
の実装を更新しましたので、それをフォークしている場合は更新してください。tokenization APIについては変更していません。
さらなる情報は、Multilingual READMEを参照ください.
-
ラテン文字でないアルファベットには、ギリシャ文字やキリル文字などがある ↩