この記事の対象者
- AI Chatbotや自然言語処理に興味がある。
- MeCabだけでなく、Juman++が使用してみたい
- Jumanはインストールでできたが、Juman++のインストール方法がよくわからない
環境
- OS:Ubuntu-18.04
Juman++をインストール
今回は処理速度が大きく向上したJuman++のV2を使用していきます。
(あくまでV2は開発版なので、ご利用の際は自己責任でお願いいたします)
https://github.com/ku-nlp/jumanpp/releases
※Juman++の1.0系はこちらからインストールできます
http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN%2B%2B
Juman++のソースをダウンロードして解凍
# jumanpp-2.0.0-rc3 download
wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz
# unzip a file
tar xvf jumanpp-2.0.0-rc3.tar.xz
GNU C コンパイラをインストール(追記:2019年9月26日)
Ubuntuの場合、build-essential
パッケージをインストールすることで gcc などの必要なツールがまとめてインストールされます。
sudo apt update -y
sudo apt upgrade -y
sudo apt install build-essential -y
cmakeをインストール
sudo apt install cmake -y
コンパイル用のフォルダを作成
cd jumanpp-2.0.0-rc3/
mkdir build
juman++をコンパイル。
cd build/
cmake .. -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=/usr/local
make
-DCMAKE_INSTALL_PREFIX
には、make install
した時のインストール先を設定できます。デフォルトは、UNIXでは/usr/local
、WindowsではC://Program Files
です。
-DCMAKE_BUILD_TYPE
については、こちら(項:ビルドの種類によってオプションを変える)の記事が詳しいです。
コンパイルが完了したら、インストール開始
sudo make install
Juman++がインストールできたか確認
文字列を品詞分解してみる。
echo すももももももももももも | jumanpp
以下のように出力されれば、インストール成功です。
すもも すもも すもも 名詞 6 普通名詞 1 * 0 * 0 "自動獲得:テキスト"
@ すもも すもも すもも 名詞 6 普通名詞 1 * 0 * 0 "代表表記:酸桃/すもも 自動獲得:EN_Wiktionary"
も も も 助詞 9 副助詞 2 * 0 * 0 NIL
もも もも もも 名詞 6 普通名詞 1 * 0 * 0 "代表表記:桃/もも ドメイン:料理・食事 カテゴリ:植物;人工物-食べ物 漢字読み:訓"
@ もも もも もも 名詞 6 普通名詞 1 * 0 * 0 "代表表記:股/もも カテゴリ:動物-部位"
も も も 助詞 9 副助詞 2 * 0 * 0 NIL
もも もも もも 名詞 6 普通名詞 1 * 0 * 0 "代表表記:桃/もも ドメイン:料理・食事 カテゴリ:植物;人工物-食べ物 漢字読み:訓"
@ もも もも もも 名詞 6 普通名詞 1 * 0 * 0 "代表表記:股/もも カテゴリ:動物-部位"
も も も 助詞 9 副助詞 2 * 0 * 0 NIL
もも もも もも 名詞 6 普通名詞 1 * 0 * 0 "代表表記:桃/もも ドメイン:料理・食事 カテゴリ:植物;人工物-食べ物 漢字読み:訓"
@ もも もも もも 名詞 6 普通名詞 1 * 0 * 0 "代表表記:股/もも カテゴリ:動物-部位"
EOS
品詞分解したファイルを出力する場合は、こんな風に使います。
cat source.txt | jumanpp > sumomo.csv
cat sumomo.csv
まとめ
以下、上記コードをバッチ処理で実行できるソースです。
# jumanpp-2.0.0-rc3 download
wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc3/jumanpp-2.0.0-rc3.tar.xz
# unzip a file
tar xvf jumanpp-2.0.0-rc3.tar.xz
# cmake install
sudo apt install cmake -y
# build jumanpp
cd jumanpp-2.0.0-rc3/
mkdir build
cd build/
cmake .. -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=/usr/local
make
# install jumanpp
sudo make install
以上