ubuntu16.04にMeCabを入れた話

More than 1 year has passed since last update.

日本語コーパスを作る必要があったので、MeCabを入れた話を書いておきます。


1 MeCabとは

オープンソースの形態素解析エンジンです。

形態素解析って言いうのはざっくり書くと「単語の最小単位まで分解する」事です。英語だと"This is a pen."みたいに最小単位の単語がスペースで区切られているのですが、日本語だとくっついてるので解析して分解してやる必要があります。そうしないとゴニョゴニョできないので。

公式 URL: http://taku910.github.io/mecab/

ライセンス:


2 MeCabのインストール

全面的にこのサイトを参照させていただきました。

https://gist.github.com/YoshihitoAso/9048005

ありがとうございました。m(__)m

一応手順を書いておくと、

$ sudo apt-get install mecab libmecab-dev mecab-ipadic

$ sudo aptitude install mecab-ipadic-utf8

$ sudo apt-get install python-mecab

最初がMeCabのコアのインストール、2番目はIPAの辞書のUTF8版、最後にpythonから呼び出すライブラリですね。


3 Installできたかどうかの確認

今回はわかち書きをさせたかったので、以下のサンプルソースを作成。

a.jpg

動かした結果はこんな感じ。

b.jpg


4 MeCabのオプションに関して

以下のサイトにMeCabのオプションに関してわかりやすく書かれています、感謝。

自分の場合はわかち書きだけしたかったので"-Owakati"だけで済みましたが、後で使うかもな。

http://www.mwsoft.jp/programming/munou/mecab_command.html