Ubuntu 18.04 LTSにKNP, JUMAN, CRF++をインストールする方法についてまとめてみます。
必要なパッケージのインストール
- checkinstall, ccacheを用いてUbuntuにソフトウェアをインストールする方法 - Qiitaの必要なパッケージのインストールに従って、必要なパッケージのインストールを行います。
-
sudo apt install libcdb-dev libjuman zlib1g-dev libboost-dev
を実行し、必要なパッケージをインストールします。
JUMANのインストール
APTで提供されているJUMANは、KNPのインストールで必要なファイルが不足しているため、サイトからダウンロードしたものをインストールします。
- JUMAN(bzip2圧縮)をダウンロードします。
- 適当なディレクトリに解凍します。
- checkinstall, ccacheを用いてUbuntuにソフトウェアをインストールする方法 - Qiitaのソフトウェアのインストールに従ってインストールを行います。
KNPのインストール
- KNP(bzip2圧縮)をダウンロードします。
- 適当なディレクトリに解凍します。
-
auto-apt, checkinstall, ccacheを用いてUbuntuにソフトウェアをインストールする方法 - Qiitaのソフトウェアのインストールに従ってインストールを行います。
※途中でかなりの待ち時間が発生しますが、焦らずゆっくりと待ちましょう。
動作確認
echo "麻生太郎はコーヒーを買って飲んだ。" | juman | knp -simple -anaphora
を実行し、次のように出力されれば、インストール成功です。
# S-ID:1 KNP:KNP:4.16-CF1.1 DATE:2015/11/17 SCORE:-16.31767
* 3D <体言><係:未格>
+ 1D <係:文節内><体言><NE内:PERSON><EID:0>
麻生 あそう 麻生 名詞 6 人名 5 * 0 * 0 "人名:日本:姓:135:0.00166 疑似代表表記 代表表記:麻生/あそう" <NE:PERSON:B>
+ 4D <体言><係:未格><NE:PERSON:麻生太郎><EID:1>
太郎 たろう 太郎 名詞 6 人名 5 * 0 * 0 "人名:日本:名:45:0.00106 疑似代表表記 代表表記:太郎/たろう" <係:未格><NE:PERSON:E>
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
* 3D <体言><係:ヲ格>
+ 4D <体言><係:ヲ格><EID:2>
コーヒー こーひー コーヒー 名詞 6 普通名詞 1 * 0 * 0 "代表表記:珈琲/こーひー カテゴリ:人工物-食べ物 ドメイン:料理・食事" <係:ヲ格>
を を を 助詞 9 格助詞 1 * 0 * 0 NIL
* 3D <用言:動><係:連用>
+ 4D <用言:動><係:連用><EID:3><述語項構造:買う/かう:動2:ガ/O/麻生太郎/1;ヲ/O/コーヒー/2>
買って かって 買う 動詞 2 * 0 子音動詞ワ行 12 タ系連用テ形 14 "代表表記:買う/かう ドメイン:家庭・暮らし;ビジネス 反義:動詞:売る/うる"
* -1D <用言:動><係:文末>
+ -1D <用言:動><係:文末><EID:4><述語項構造:飲む/のむ:動1:ガ/N/麻生太郎/1;ヲ/C/コーヒー/2>
飲んだ のんだ 飲む 動詞 2 * 0 子音動詞マ行 9 タ形 10 "代表表記:飲む/のむ ドメイン:料理・食事"
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
EOS
注意点
{KNPの解凍先ディレクトリ}/knp-4.16/crf/template
(固有表現抽出モデル学習用テンプレート) はインストールされないので、解凍したディレクトリ({KNPの解凍先ディレクトリ}/knp-4.16/
) を消さないようにしてください。
関連記事
- KNPでの固有表現抽出モデル生成・テスト - Qiita
- Ubuntu 18.04 LTSにJUMAN++をインストールする方法 - Qiita
- Ubuntu 18.04 LTSにKyteaをインストールする方法 - Qiita
- JUMAN++をPythonから使う - Qiita