今後どこかで使いそうなのでメモ程度に
項目
- 学習済みのモデルを取ってくる
-
gensim
に持ってきたモデルをロード - 単語のベクトル化や単語同士の類似度を出す
1.学習済みのモデルを取ってくる
ここからcc.ja.300.vec.gz
というファイルをダウンロード。
(japanで検索すれば見つかるはず)
2.gensim
に持ってきたモデルをロード
python
import gensim
model_path = '/content/drive/MyDrive/Colab Notebooks/fasttextmodel/cc.ja.300.vec.gz'
model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=False)
3. 単語のベクトルやそれら類似度を出す
python
# ベクトルが近い単語を一括して出力
print(model.most_similar('~~~~', topn=10))
# 単語同士の類似度を出力
print(model.similarity('~~~', '~~~'))