fastTextの学習済みモデルを公開しました

  • 60
    いいね
  • 2
    コメント

fastTextの学習済みモデルを公開しました。
以下から学習済みモデルをダウンロードすることができます:

埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。
awesome-embedding-models

Motivation

以下の記事では icoxfog417 が GitHub で公開していたリンクを貼りました。

ただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくいといった問題がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。

How to make

fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い方を解説している良記事です。

学習に使用したデータはwikipedia2017/01/01です。

ハイパーパラメータは以下のように設定しています。他のハイパーパラメータはDefaultの設定を用いています。

  • dim: 300
  • epoch: 10
  • minCount: 20

How to use

データをダウンロードしたら読み込みは以下のようにして行うことができます。(gensimの場合)

import gensim

model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)

関連する単語は以下のようにして求めることができます。

>>> model.most_similar(positive=['日本人'])
[('韓国人', 0.7338133454322815),
 ('中国人', 0.717720627784729),
 ('アメリカ人', 0.6725355982780457),
 ('日本人女性', 0.6723321676254272),
 ('外国人', 0.6420464515686035),
 ('フィリピン人', 0.6264426708221436),
 ('欧米人', 0.621786892414093),
 ('アジア人', 0.6192302703857422),
 ('台湾人', 0.6034690141677856),
 ('日系人', 0.5906497240066528)]

Good NLP Life!