fastTextの学習済みモデルを公開しました

Last updated at 2021-10-15Posted at 2017-01-22

fastTextの学習済みモデルを公開しました。
以下から学習済みモデルをダウンロードすることができます:

埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。
awesome-embedding-models

Motivation

以下の記事では icoxfog417 が GitHub で公開していたリンクを貼りました。

いますぐ使える単語埋め込みベクトルのリスト

ただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくいといった問題がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。

How to make

fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い方を解説している良記事です。

FacebookのfastTextでFastに単語の分散表現を獲得する

学習に使用したデータはwikipedia2017/01/01です。

jawiki 20170101

ハイパーパラメータは以下のように設定しています。他のハイパーパラメータはDefaultの設定を用いています。

dim: 300
epoch: 10
minCount: 20

How to use

データをダウンロードしたら読み込みは以下のようにして行うことができます。(gensimの場合)

import gensim

model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)

関連する単語は以下のようにして求めることができます。

>>> model.most_similar(positive=['日本人'])
[('韓国人', 0.7338133454322815),
 ('中国人', 0.717720627784729),
 ('アメリカ人', 0.6725355982780457),
 ('日本人女性', 0.6723321676254272),
 ('外国人', 0.6420464515686035),
 ('フィリピン人', 0.6264426708221436),
 ('欧米人', 0.621786892414093),
 ('アジア人', 0.6192302703857422),
 ('台湾人', 0.6034690141677856),
 ('日系人', 0.5906497240066528)]

Good NLP Life!

232

202

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up