#実行環境
Windows 10 64-bit
Python 3.6 (64-bit版Anacondaの仮想環境上)
#Mecabの環境設定
形態素解析ツールMecab
Windowsの場合はexeのものを指定して文字コードを指定してインストールします。(その際、文字コードをUTF-8を選択する)
対象ダウンロードは下記の通り
しかし、32bit版しかありません。そのため、MeCab本体を64-bitでコンパイルし直し、関連ファイルを64bit版に更新する必要があります。
#Mecabをインストール
http://taku910.github.io/mecab/#download
デスクトップにショートカットも出てくるのでクリックするとコマンドプロントもどき?が出てきます。すでに辞書もインストールできているので、直接文字を入力します。
文字化けです。この文字化けを改善するのにMeCabの64bit化をする必要があります。
#Visual Studio 2017のインストール
MeCab本体を64-bitでコンパイルし直し、関連ファイルを64bit版に更新するために必要なものです。
参照したサイトでは2015版をインストールするように推奨されていましたが、
そのため2017年版で実装します。
ファイルを書き換えないといけないようなのでファイルを解凍・・・・
文字化けしてる。どうすればいいのか途方に暮れる。10回ぐらいインストールと再インストールを繰り返し、半日費やしてしまいました・・・
#Janomeを使おう!
$ pip install janome
https://pypi.python.org/pypi/Janome
1分もしないでインストールが完了。
インストールが完了したので形態素解析をする。
from janome.tokenizer import Tokenizer
t = Tokenizer()
for token in t.tokenize('冬休み嬉しすぎる!'):
print(token)
実行結果