概要
MeCabとは、オープンソースの形態素解析エンジンです。そして、その性能を大きく左右するのが辞書です。
今回は、MeCabのインストールからmecab-ipadic-NEologd (インスタ映え、鬼滅の刃など最新の単語情報が載っている辞書)をデフォルト辞書に設定する方法をまとめました。
おそらく全て書いてあるのは他にないです。
2022年11月現在の情報です。
少し長いですが、基本的にコピペで完了できます。
MeCabのインストール
HomebrewでMecabをインストールします。
brew install mecab
次にMeCabのためのIPA辞書をインストールする必要があります。
brew install mecab-ipadic
MeCabとPythonの紐付け
pip install mecab-python3
インストールが完了したら、以下を実行し、エラーがなければOKです。
python3 -c "import MeCab"
形態素解析を試す
echo 'インスタ映え' | mecab
とりあえず試したい人はそのままコピペしてください。
(出力内容)
インスタ 名詞,一般,*,*,*,*,*
映え 名詞,一般,*,*,*,*,映え,ハエ,ハエ
EOS
最新の辞書 mecab-ipadic-NEologdを使う
mecab-ipadic-NEologdとは、MeCab用の辞書で毎週2回更新されるため新語や固有表現に強い辞書です。
インストール
下の3つをコマンドで打ちます。
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n
以下でインストール先を確認します。
echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
インストール先のPathは、例えば /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
と出力されます。このPathは次で使います。
形態素解析を試す
-dオプションで辞書をし指定し解析します。
{}の部分はコピペではなく、各自変更する必要があります。
echo 'インスタ映え' | mecab -d { 先ほどのインストール先のPath }
{ 先ほどのインストール先のPath } の部分には /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
などが入ります。
(出力内容)
インスタ映え 名詞,固有名詞,一般,*,*,*,インスタ映え,インスタハエ,インスタハエ
EOS
MeCabのデフォルト辞書に設定
まずmecabrcがどこにあるか探します。
mecab-config --sysconfdir
すると、/opt/homebrew/etc
などが出力されます。
このPathからたどって、mecabrcを開きます。
どんなエディタでも編集できればいいですが、僕は
cd {mecabrcのある場所. /opt/homebrew/etc など}
で移動してから、code .
でVSCodeを開いて編集しました。
# 書き換えるところ 6行目あたり
# 変更前
dicdir = /opt/homebrew/lib/mecab/dic/ipadic
# 変更後
dicdir = /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
これで完了です。
以下のコマンドで試してみましょう。
echo 'インスタ映え' | mecab
すると、以下のように出力されるはずです。
(出力内容)
インスタ映え 名詞,固有名詞,一般,*,*,*,インスタ映え,インスタハエ,インスタハエ
EOS
終わりに
ずいぶん前に投稿しようと思っていたけど忘れてた、、もったいないので載せておきます。