UbuntuでのMeCabの利用

  • 1
    Like
  • 0
    Comment

備忘録

MeCab(日本語形態素解析システム)
http://taku910.github.io/mecab/

インストール

$ sudo apt-get update
$ sudo apt-get install libmecab2 libmecab-dev mecab mecab-ipadic mecab-ipadic-utf8 mecab-utils

動作例

インタラクティブ

$ mecab
テスト
テスト   名詞,サ変接続,*,*,*,*,テスト,テスト,テスト
EOS
世界に一つだけの花
世界  名詞,一般,*,*,*,*,世界,セカイ,セカイ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
一つ  名詞,一般,*,*,*,*,一つ,ヒトツ,ヒトツ
だけ  助詞,副助詞,*,*,*,*,だけ,ダケ,ダケ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
花 名詞,一般,*,*,*,*,花,ハナ,ハナ

パイプを用いて

$ echo "花屋の店先に並んだ" | mecab
花屋  名詞,一般,*,*,*,*,花屋,ハナヤ,ハナヤ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
店先  名詞,一般,*,*,*,*,店先,ミセサキ,ミセサキ
に 助詞,格助詞,一般,*,*,*,に,ニ,ニ
並ん  動詞,自立,*,*,五段・バ行,連用タ接続,並ぶ,ナラン,ナラン
だ 助動詞,*,*,*,特殊・タ,基本形,だ,ダ,ダ
EOS

末尾のEOSを消したい

-E オプションにて末尾の文字を指定

$ echo "色んな花を見ていた" | mecab -E ""
色んな   連体詞,*,*,*,*,*,色んな,イロンナ,イロンナ
花 名詞,一般,*,*,*,*,花,ハナ,ハナ
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
見 動詞,自立,*,*,一段,連用形,見る,ミ,ミ
て 助詞,接続助詞,*,*,*,*,て,テ,テ
い 動詞,非自立,*,*,一段,連用形,いる,イ,イ
た 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ

単語に分割するだけ

ゴリ押し。良い方法があれば教えていただきたいです。

$ echo "人それぞれ好みはあるけど" | mecab -E "" | cut -f 1
人
それぞれ
好み
は
ある
けど

追記(2016/10/10 22:53)
MeCabのオプションだけで出力フォーマット弄れました

$ echo "人それぞれ好みはあるけど" | mecab -F"%m\n" -E ""