fastTextの学習済みモデルを公開しました。
以下から学習済みモデルをダウンロードすることができます:
埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。
awesome-embedding-models
Motivation
以下の記事では icoxfog417 が GitHub で公開していたリンクを貼りました。
ただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくいといった問題がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。
How to make
fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い方を解説している良記事です。
学習に使用したデータはwikipedia2017/01/01です。
ハイパーパラメータは以下のように設定しています。他のハイパーパラメータはDefaultの設定を用いています。
- dim: 300
- epoch: 10
- minCount: 20
How to use
データをダウンロードしたら読み込みは以下のようにして行うことができます。(gensimの場合)
import gensim
model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)
関連する単語は以下のようにして求めることができます。
>>> model.most_similar(positive=['日本人'])
[('韓国人', 0.7338133454322815),
('中国人', 0.717720627784729),
('アメリカ人', 0.6725355982780457),
('日本人女性', 0.6723321676254272),
('外国人', 0.6420464515686035),
('フィリピン人', 0.6264426708221436),
('欧米人', 0.621786892414093),
('アジア人', 0.6192302703857422),
('台湾人', 0.6034690141677856),
('日系人', 0.5906497240066528)]
Good NLP Life!