概要
WindowsのコンソールでインストールしたPythonに対してMeCabを使おうとしたときにつまづいたので
やり方をメモしておくことにしました。
前提条件
Pythonが既にインストールされていること。
インストールされているPythonのバージョンが3.xであること。
MeCabの導入
下記のURLからMeCabの実行ファイルをダウンロードできるページへ移動する。
64bitの場合
32bitの場合
その後、64bitの場合はmecab-0.996-64.exeのリンクをクリックしてダウンロードする。
インストールが終わった後、環境変数の編集”で"Path"を選択し、”編集”の"新規"で
MeCabのインストール先のパスを追加する。
詳細は、下記のURLを参照してください。
https://qiita.com/menon/items/f041b7c46543f38f78f7#anacondaのインストール
ここまで出来たら、コンソールに「mecab」と入力して文章を入力すると下記の結果が出力されます。
mecab-python3の導入
参照していたサイトだと「mecab-python-windows」をインストールしていました。
が、自分が試したところエラーになって使えなかったため「mecab-python3」をインストールしました。
コンソールを開いて下記のコマンドを実行して「mecab-python3」をインストールする。
pip install mecab-python3
PythonでMeCabを実行
ここまで出来たらあとはPythonでMeCabを実行するだけです。
下記のソースを保存して実行すると
import MeCab
print("文章は?")
CONTENT = input()
tagger = MeCab.Tagger()
parse = tagger.parse(CONTENT)
print(parse)
ChaSen形式を追加
今の段階で"-Ochasen"で表示しようとするとエラーが出ます。
そのため、dicrcファイルにChaSenの形式を追加してあげる必要があります。
dicrcファイルはインストールしているPythonの開発環境によって違いますが
大体、インストールしたPythonのファイル配下のLib\site-packages\unidic_lite
にあると思います。
dicrcファイルを見つけたらメモ帳などのエディターで開いて下記の内容を追加してください。
; ChaSen
node-format-chasen = %m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen = %m\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen = EOS\n
その他の形式については下記のURLを参照してください。
http://taku910.github.io/mecab/format.html
これで"-Ochasen"が使えるようになります。