fastTextの学習済みモデルをPythonから使う #Python

gensim が提供しているラッパーが使える。

gensim: models.wrappers.fasttext – FastText Word Embeddings

モデル学習:

$ fasttext skipgram -input data.txt -output model
$ ls model*
model.bin  model.vec

gensim のインストール:

$ pip install gensim

使い方:

>>> from gensim.models.wrappers.fasttext import FastText
>>> model = FastText.load_fasttext_format('model')
>>> model['営業']
array([-0.03654   ,  0.19302   ,  0.2026    ,  0.14026   ,  0.06685   ,
        0.10969   , -0.095857  , -0.20964   , -0.27291   , -0.33750001,
        ...
        0.47084001, -0.030295  , -0.003683  , -0.10061   ,  0.17308   ], dtype=float32)
>>> m.most_similar('営業')
[('営業職', 0.7841936945915222),
 ('テレアポ', 0.7670873403549194),
 ('飛込', 0.7659018039703369),
 ('電話営業', 0.7384717464447021),
 ...]

モデル学習自体を gensim のラッパーから行うこともできるが、あまりメリットが無さそうなので省略。