BERTを使うことがあったので、現在公開されている日本語モデルについてまとめてみました。
フレームワークやトークナイザーのあたりはざっと資料を読んで書いてるので、本当はこうだよ!というご指摘お待ちしております。
制作者 | フレームワーク | 形態素解析器, トークナイザー | ソース | ライセンス | URL |
---|---|---|---|---|---|
TensorFlow 2 | WordPiece? | 日本語Wikipedia? | Apache2.0 | https://li.dott.dev/FrR9 | |
京都大学 黒橋・河原研究所 | TensorFlow 1x, PyTorch, Transformers | Juman++ | 日本語Wikipedia | Apache2.0 | https://li.dott.dev/VuH4 |
東北大学 乾・鈴木研究室 | TensorFlow ?, PyTorch, Transformers | MeCab(IPADic, NEologd) + WordPiece | 日本語Wikipedia | Apache2.0 | https://li.dott.dev/SGnp |
菊田遥平 | TensorFlow < 2.0 | SentencePiece | 日本語Wikipedia | Apache2.0 | https://li.dott.dev/fM6F |
株式会社ホットリンク | TensorFlow 1.11 | SentencePiece | Twitter日本語評判分析データセット | 独自規約 | https://li.dott.dev/yhRr |
NICT | TensorFlow 2, PyTorch, Transformers | MeCab-Juman | 日本語Wikipedia | CC BY 4.0 | https://li.dott.dev/Y1q5 |