0
0

More than 1 year has passed since last update.

【Python】Windows環境でMeCabを使う

Last updated at Posted at 2021-09-21

概要

WindowsのコンソールでインストールしたPythonに対してMeCabを使おうとしたときにつまづいたので
やり方をメモしておくことにしました。

前提条件

Pythonが既にインストールされていること。
インストールされているPythonのバージョンが3.xであること。

MeCabの導入

下記のURLからMeCabの実行ファイルをダウンロードできるページへ移動する。
64bitの場合
32bitの場合

その後、64bitの場合はmecab-0.996-64.exeのリンクをクリックしてダウンロードする。

インストールが終わった後、環境変数の編集”で"Path"を選択し、”編集”の"新規"で
MeCabのインストール先のパスを追加する。
詳細は、下記のURLを参照してください。
https://qiita.com/menon/items/f041b7c46543f38f78f7#anacondaのインストール

ここまで出来たら、コンソールに「mecab」と入力して文章を入力すると下記の結果が出力されます。
Inked3PNG_LI.jpg

mecab-python3の導入

参照していたサイトだと「mecab-python-windows」をインストールしていました。
が、自分が試したところエラーになって使えなかったため「mecab-python3」をインストールしました。

コンソールを開いて下記のコマンドを実行して「mecab-python3」をインストールする。

pip install mecab-python3

PythonでMeCabを実行

ここまで出来たらあとはPythonでMeCabを実行するだけです。

下記のソースを保存して実行すると

import MeCab

print("文章は?")
CONTENT = input()

tagger = MeCab.Tagger()
parse = tagger.parse(CONTENT)

print(parse)

下記のようになります。
4.PNG

ChaSen形式を追加

今の段階で"-Ochasen"で表示しようとするとエラーが出ます。
そのため、dicrcファイルにChaSenの形式を追加してあげる必要があります。

dicrcファイルはインストールしているPythonの開発環境によって違いますが
大体、インストールしたPythonのファイル配下のLib\site-packages\unidic_lite
にあると思います。

dicrcファイルを見つけたらメモ帳などのエディターで開いて下記の内容を追加してください。

; ChaSen
node-format-chasen = %m\t%f[7]\t%f[6]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format-chasen  = %m\t%m\t%m\t%F-[0,1,2,3]\t\t\n
eos-format-chasen  = EOS\n

その他の形式については下記のURLを参照してください。
http://taku910.github.io/mecab/format.html

これで"-Ochasen"が使えるようになります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0