1. Hironsan

    No comment

    Hironsan
Changes in body
Source | HTML | Preview
@@ -1,56 +1,59 @@
fastTextの学習済みモデルを公開しました。
以下から学習済みモデルをダウンロードすることができます:
* [Download Word Vectors](https://drive.google.com/open?id=0ByFQ96A4DgSPNFdleG1GaHcxQzA)
* [Download Word Vectors(NEologd)](https://drive.google.com/open?id=0ByFQ96A4DgSPUm9wVWRLdm5qbmc)
+埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。
+[awesome-embedding-models](https://github.com/Hironsan/awesome-embedding-models)
+
# Motivation
以下の記事では [icoxfog417](http://qiita.com/icoxfog417) が GitHub で公開していたリンクを貼りました。
* [いますぐ使える単語埋め込みベクトルのリスト](http://qiita.com/Hironsan/items/8f7d35f0a36e0f99752c)
ただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくかったりといった面がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。
# How to make
fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い方を解説している良記事です。
* [FacebookのfastTextでFastに単語の分散表現を獲得する](http://qiita.com/icoxfog417/items/42a95b279c0b7ad26589)
学習に使ったデータはwikipedia2017/01/01を使っています。
* [jawiki 20170101](https://dumps.wikimedia.org/jawiki/20170101/)
ハイパーパラメータは以下のように設定しています。他のハイパーパラメータはDefaultの設定を使っています。
* dim: 300
* epoch: 10
* minCount: 20
# How to use
データをダウンロードしたら読み込みは以下のようにして行うことができます。(gensimの場合)
```py3
from gensim.models import word2vec
model = word2vec.Word2Vec.load_word2vec_format('model.vec', binary=False)
```
関連する単語は以下のようにして求めることができます。
```py3
>>> model.most_similar(positive=['日本人'])
[('韓国人', 0.7338133454322815),
('中国人', 0.717720627784729),
('アメリカ人', 0.6725355982780457),
('日本人女性', 0.6723321676254272),
('外国人', 0.6420464515686035),
('フィリピン人', 0.6264426708221436),
('欧米人', 0.621786892414093),
('アジア人', 0.6192302703857422),
('台湾人', 0.6034690141677856),
('日系人', 0.5906497240066528)]
```
Good NLP Life!