LoginSignup
0
0

More than 1 year has passed since last update.

MeCabとNEologdで形態素解析できるようにする【Mac】

Posted at

概要

MeCabとは、オープンソースの形態素解析エンジンです。そして、その性能を大きく左右するのが辞書です。

今回は、MeCabのインストールからmecab-ipadic-NEologd (インスタ映え、鬼滅の刃など最新の単語情報が載っている辞書)をデフォルト辞書に設定する方法をまとめました。

おそらく全て書いてあるのは他にないです。

2022年11月現在の情報です。
少し長いですが、基本的にコピペで完了できます。

MeCabのインストール

HomebrewでMecabをインストールします。

brew install mecab

次にMeCabのためのIPA辞書をインストールする必要があります。

brew install mecab-ipadic

MeCabとPythonの紐付け

pip install mecab-python3

インストールが完了したら、以下を実行し、エラーがなければOKです。

python3 -c "import MeCab"

形態素解析を試す

echo 'インスタ映え' | mecab

とりあえず試したい人はそのままコピペしてください。

(出力内容)

インスタ    名詞,一般,*,*,*,*,*
映え  名詞,一般,*,*,*,*,映え,ハエ,ハエ
EOS

最新の辞書 mecab-ipadic-NEologdを使う

mecab-ipadic-NEologdとは、MeCab用の辞書で毎週2回更新されるため新語や固有表現に強い辞書です。

インストール

下の3つをコマンドで打ちます。

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n

以下でインストール先を確認します。

echo `mecab-config --dicdir`"/mecab-ipadic-neologd"

インストール先のPathは、例えば /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
と出力されます。このPathは次で使います。

形態素解析を試す

-dオプションで辞書をし指定し解析します。
{}の部分はコピペではなく、各自変更する必要があります。

echo 'インスタ映え' | mecab -d { 先ほどのインストール先のPath }

{ 先ほどのインストール先のPath } の部分には /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd などが入ります。

(出力内容)
インスタ映え  名詞,固有名詞,一般,*,*,*,インスタ映え,インスタハエ,インスタハエ
EOS

MeCabのデフォルト辞書に設定

まずmecabrcがどこにあるか探します。

mecab-config --sysconfdir

すると、/opt/homebrew/etcなどが出力されます。

このPathからたどって、mecabrcを開きます。
どんなエディタでも編集できればいいですが、僕は

cd {mecabrcのある場所. /opt/homebrew/etc など}

で移動してから、code .でVSCodeを開いて編集しました。

# 書き換えるところ 6行目あたり
# 変更前
dicdir =  /opt/homebrew/lib/mecab/dic/ipadic

# 変更後
dicdir =  /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd

これで完了です。
以下のコマンドで試してみましょう。

echo 'インスタ映え' | mecab

すると、以下のように出力されるはずです。

(出力内容)
インスタ映え  名詞,固有名詞,一般,*,*,*,インスタ映え,インスタハエ,インスタハエ
EOS

終わりに

ずいぶん前に投稿しようと思っていたけど忘れてた、、もったいないので載せておきます。

参考記事

MeCabのデフォルト辞書を変更する【Mac】

MacにMeCabとNEologdをインストールして、形態素解析する

MacにMeCabを利用できる環境を整える

neologd/mecab-ipadic-neologd (GitHub)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0