韓国語を形態素解析したいけど、
何がいいかなと探していたところ、mecab韓国語版を見つけました。
というのはもう2年前の話なのだが、それはさておいて。
mecab-koとは
mecabを韓国語の形態素解析用に多少コードを改変しているようです。
Bitbucketにて公開されています。
https://bitbucket.org/eunjeon/mecab-ko/src/master/
何をどう改変したのかはコミットログを見て、、、も、私は分かりません
(README読む限りでは、空白文字の扱いが違うっぽい)
インストール
ひとまずMacbook Airにインストールします。
- mecab-ko本体をインストール
- 韓国語用辞書をインストール
mecab-ko本体をインストール
Macであれば、homebrewであっさりインストールできます。
といってもREADMEにソースコンパイルの手順書いてるので、
Linuxへのインストールも苦ではないです。
$ brew install mecab-ko
==> Downloading https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
==> Downloading from https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=Db
######################################################################## 100.0%
==> ./configure --prefix=/usr/local/Cellar/mecab-ko/0.996-ko-0.9.2 --sysconfdir=/usr/local/etc
==> make install
🍺 /usr/local/Cellar/mecab-ko/0.996-ko-0.9.2: 21 files, 4.3MB, built in 1 minute 15 seconds
韓国語用の辞書をインストール
mecab-ko-dicという名前で、Bitbucketで配布されています。
https://bitbucket.org/eunjeon/mecab-ko-dic/
インストール手順は2パターン記載があります。
automakeのバージョンが1.11でない場合、
autogen.shを実行する手順であればちゃんとインストールできそう。
$ wget https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz
$ tar zxfv mecab-ko-dic-2.1.1-20180720.tar.gz
$ cd mecab-ko-dic-2.1.1-20180720
$ ./autogen.sh
$ ./configure
$ make
$ make install
これで下記ディレクトリに辞書がインストールされます。
$ ls /usr/local/lib/mecab/dic/mecab-ko-dic/
char.bin left-id.def model.bin rewrite.def sys.dic
dicrc matrix.bin pos-id.def right-id.def unk.dic
mecab-koを使う
mecabコマンドで起動できます。
韓国プロ野球(KBO)のニュースの見出しを形態素解析してみます。
ニュース記事:
https://www.koreabaseball.com/News/Preview/View.aspx?bdSe=38482
記事見出し「승리 목마른 소사, 한화 상대로 9승 도전」
$ mecab
승리 목마른 소사, 한화 상대로 9승 도전
승리 NNG,행위,F,승리,*,*,*,*
목마른 VA+ETM,*,T,목마른,Inflect,VA,ETM,목마르/VA/*+ᆫ/ETM/*
소사 NNG,*,F,소사,*,*,*,*
, SC,*,*,*,*,*,*,*
한화 NNG,*,F,한화,*,*,*,*
상대 NNG,*,F,상대,*,*,*,*
로 JKB,*,F,로,*,*,*,*
9 SN,*,*,*,*,*,*,*
승 NNBC,*,T,승,*,*,*,*
도전 NNG,*,T,도전,*,*,*,*
EOS
とりあえず形態素解析できましたが、、
なるほどハングル読めないからよく分からん。
(続く)