search
LoginSignup
199
Help us understand the problem. What are the problem?

More than 1 year has passed since last update.

posted at

updated at

Organization

fastTextの学習済みモデルを公開しました

fastTextの学習済みモデルを公開しました。
以下から学習済みモデルをダウンロードすることができます:

埋め込みベクトルの情報は以下のリポジトリにまとめているので、こちらもよろしく。
awesome-embedding-models

Motivation

以下の記事では icoxfog417 が GitHub で公開していたリンクを貼りました。

ただ、公開されていたベクトルをダウンロードするのにGit LFSが必要であったり場所がわかりにくいといった問題がありました。そのため、今回は簡単にダウンロードできるように学習・公開しました。

How to make

fastTextの使い方は以下の記事を参考にしました。fastTextの理論と使い方を解説している良記事です。

学習に使用したデータはwikipedia2017/01/01です。

ハイパーパラメータは以下のように設定しています。他のハイパーパラメータはDefaultの設定を用いています。

  • dim: 300
  • epoch: 10
  • minCount: 20

How to use

データをダウンロードしたら読み込みは以下のようにして行うことができます。(gensimの場合)

import gensim

model = gensim.models.KeyedVectors.load_word2vec_format('model.vec', binary=False)

関連する単語は以下のようにして求めることができます。

>>> model.most_similar(positive=['日本人'])
[('韓国人', 0.7338133454322815),
 ('中国人', 0.717720627784729),
 ('アメリカ人', 0.6725355982780457),
 ('日本人女性', 0.6723321676254272),
 ('外国人', 0.6420464515686035),
 ('フィリピン人', 0.6264426708221436),
 ('欧米人', 0.621786892414093),
 ('アジア人', 0.6192302703857422),
 ('台湾人', 0.6034690141677856),
 ('日系人', 0.5906497240066528)]

Good NLP Life!

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
199
Help us understand the problem. What are the problem?