LoginSignup
2

posted at

updated at

とりまMecabで形態素解析を行いたい方へ。

初めに

Mecabって結構インストールが複雑?分かりにくくて多少苦労しました。
それらしいサイトを探っても前置きや広告で分かりにくかったり。

今回はとにかく使いたい方にサクッとコードをシェア致します。

環境 colab windows 2022/9/2

コード

# パターン①
! pip install mecab
! pip install unidic-lite
import MeCab

これでいかがでしたか?偶にエラーになります。その場合はパターン②で

# パターン②
!apt install aptitude
!aptitude install mecab libmecab-dev mecab-ipadic-utf8 git make curl xz-utils file -y
!pip install mecab-python3==0.7

その後に

import MeCab
# pip とimportは別のセルに分けた方が良いかもしれません。

例題

text = "私は昨日カレーライスを食べました"
tagger = MeCab.Tagger() 
print(tagger.parse(text))

この出力結果で形態素解析された文言が出力されるはずです。

終わりに

内容も少ないのでサクッと。記事を終わらせます。

パターン①について

  • メカブmoduleインポート! pip install mecab
  • 辞書moduleのインポート! pip install unidic-lite
  • メカブのインポートimport MeCab

辞書のチョイスについてはまだ調査の余地があるようです。
tagger = MeCab.Tagger("unidic-lite") でも実行できます。
おそらくインポートした辞書がデフォルトで格納される。と都合よく解釈していおります。

パターン②について

https://qiita.com/pytry3g/items/897ae738b8fbd3ae7893
こっちは2022年現在確認取れました。

追伸

あるcolabでは①が無事実行されたのですが、別のcolabでは①はエラーになってしまいました。同じcolabなのに何故?分かりませんが、colabはブラックボックスになっている部分も多いのであまり考えないようにしています。
このようなcolab間でも差異がある。という事だけ覚えて教訓にしました。

本日(9/3)にMecabにて詰まりました。上記のコードでインストールそのものは問題ないのですが、形態素解析等進めていくとコードエラーになってしまう現象です。
(エラー名は後で更新します。)。色々模索したのですが、納得できる結果が得られず現在はJanomeを使用しております。記事を書いておいてそれすらできないとは,,,正直恥ずかしいです。

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
2