Pythonのgensimを使ってWord2Vecのモデルを作成すると、
何GBというファイルが出来上がり、実際に使用する際にもメモリをかなり消費する。
https://radimrehurek.com/gensim/models/keyedvectors.html
gensimの公式ドキュメントによると、
Word2Vecのモデルには追加学習に必要なデータも一緒に保存されているので、その分データが重くなっている。
KeyedVectors
を使うことで、学習に必要なデータを除いた形で保存できる。
save_keyedvectors.py
from gensim.models import word2vec
# W2Vモデルの読込
model = word2vec.Word2Vec.load('word2vec.model')
# keyedvectorsとして保存
model.wv.save('keyword.kv')
実際に使うときには、
load_keyedvectors.py
from gensim.models import KeyedVectors
# keyedvectorsの読込
wv = KeyedVectors.load('keyword.kv', mmap='r')
# 類義語出力
wv.most_similar('Qiita')