Python
自然言語処理
word2vec

Word2Vecを使った単語間の類似度計算と精度の検討

概要

この記事ではWord2Vecを使った単語間の類似度計算の精度を検討します。
Word2Vecによる単語の類似度計算は人間の観点の分類と異なる類似度を示すことがあります。そこで、どのような場合人間の観点の分類と相反しない分類結果を示すのか検討します。手順は以下の通りです。
- Word2Vec をWikipediaデータで学習
- 単語間の類似度計算を行う
- 選択した単語の特徴ベクトルを次元圧縮して散布図を描き単語間の類似度を可視化する
- 単語の選び方を変えることによる精度への影響を検討する

環境

'''
Python 3.5.1
OS: Amazon Linux AMI release 2015.09
'''