1. Hironsan

    Posted

    Hironsan
Changes in title
+fastTextの学習済みモデルを公開しました
Changes in tags
Changes in body
Source | HTML | Preview
@@ -0,0 +1,56 @@
+fastTextの学習済みモデルを公開しました。
+以下から学習済みモデルをダウンロードすることができます:
+
+* [Download Word Vectors](https://drive.google.com/open?id=0ByFQ96A4DgSPNFdleG1GaHcxQzA)
+* [Download Word Vectors(NEologd)](https://drive.google.com/open?id=0ByFQ96A4DgSPUm9wVWRLdm5qbmc)
+
+# Motivation
+以下の記事では [icoxfog417](http://qiita.com/icoxfog417) が GitHub で公開していたリンクを貼りました。
+
+* [いますぐ使える単語埋め込みベクトルのリスト](http://qiita.com/Hironsan/items/8f7d35f0a36e0f99752c)
+
+ただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくかったりといった面がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。
+
+# How to make
+fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い方を解説している良記事です。
+
+* [FacebookのfastTextでFastに単語の分散表現を獲得する](http://qiita.com/icoxfog417/items/42a95b279c0b7ad26589)
+
+
+学習に使ったデータはwikipedia2017/01/01を使っています。
+
+* [jawiki 20170101](https://dumps.wikimedia.org/jawiki/20170101/)
+
+ハイパーパラメータは以下のように設定しています。他のハイパーパラメータはDefaultの設定を使っています。
+
+* dim: 300
+* epoch: 10
+* minCount: 20
+
+
+# How to use
+データをダウンロードしたら読み込みは以下のようにして行うことができます。(gensimの場合)
+
+```py3
+from gensim.models import word2vec
+
+model = word2vec.Word2Vec.load_word2vec_format('model.vec', binary=False)
+```
+
+関連する単語は以下のようにして求めることができます。
+
+```py3
+>>> model.most_similar(positive=['日本人'])
+[('韓国人', 0.7338133454322815),
+ ('中国人', 0.717720627784729),
+ ('アメリカ人', 0.6725355982780457),
+ ('日本人女性', 0.6723321676254272),
+ ('外国人', 0.6420464515686035),
+ ('フィリピン人', 0.6264426708221436),
+ ('欧米人', 0.621786892414093),
+ ('アジア人', 0.6192302703857422),
+ ('台湾人', 0.6034690141677856),
+ ('日系人', 0.5906497240066528)]
+```
+
+Good NLP Life!