概要
最近はやりのword2vecをlinux上で動かせる用に導入する手順を記録します。
導入
svnとgccのインストール
$ sudo yum install –y svn gcc
word2vecダウンロード
$ svn checkout http://word2vec.googlecode.com/svn/trunk/ word2vec
word2vecコンパイル
word2vecの場合makeのみでOKです。
$ cd word2vec
$ sudo make
デモ実行
$ sh demo-word.sh
このシェルスクリプトを実行すると
- text8.zipというファイルのダウンロード
- word2vecによりtext8を解析し、vectors.binを生成
- vectors.binのデータを元に、指定した単語と意味が近い単語を返す、distanceを実行
Enter word or sentence (EXIT to break): girl
てな具合で、入力した単語とベクトル距離が近い単語を抜き出してくれます。
恐ろしく簡単ですね。