Debian 系 (Ubuntu とか) だと apt で簡単に入れれるが、RedHat 系 (Amazon Linux とか) だと yum でイッパツというわけにはいかないので、自分でビルドしたときのメモ。
ググると Groonga のリポジトリを追加して入れようとしている記事がたくさん出てくるけど、Groonga を使うわけじゃないならやめておいた方がいいと思う。
最初にやるやつ
ビルドするので Development Tools を入れる。
$ sudo yum update -y
$ sudo yum groupinstall -y "Development Tools"
MeCab インストール
ソースのダウンロード URL はここから。
$ wget 'https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE' -O mecab-0.996.tar.gz
$ tar xzf mecab-0.996.tar.gz
$ cd mecab-0.996
$ ./configure
$ make
$ make check
$ sudo make install
$ cd -
$ rm -rf mecab-0.996*
NEologd インストール
$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
$ ./mecab-ipadic-neologd/bin/install-mecab-ipadic-neologd -n -a -y
$ rm -rf mecab-ipadic-neologd
辞書のデフォルトを NEologd に設定する。
$ sudo sed -i -e "s|^dicdir.*$|dicdir = /usr/local/lib/mecab/dic/mecab-ipadic-neologd|" $(mecab-config --sysconfdir)/mecabrc
動作確認
$ echo すもももももももものうち | mecab
すもももももももものうち 名詞,固有名詞,一般,*,*,*,すもももももももものうち,スモモモモモモモモノウチ,スモモモモモモモモノウチ
EOS
(ついでに) Python で動かす
$ sudo yum install -y python3-pip
$ pip3 install mecab-python3
$ python3
Python 3.7.6 (default, Feb 26 2020, 20:54:15)
[GCC 7.3.1 20180712 (Red Hat 7.3.1-6)] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> import mecab
>>> tagger = MeCab.Tagger('-Ochasen -d/usr/local/lib/mecab/dic/mecab-ipadic-neologd')
>>> print(tagger.parse('すもももももももものうち'))
すもももももももものうち スモモモモモモモモノウチ すもももももももものうち 名詞-固有名詞-一般
EOS