LoginSignup
5
0

More than 5 years have passed since last update.

形態素解析:韓国語:その1:mecab-koをインストール

Posted at

韓国語を形態素解析したいけど、
何がいいかなと探していたところ、mecab韓国語版を見つけました。
というのはもう2年前の話なのだが、それはさておいて。

mecab-koとは

mecabを韓国語の形態素解析用に多少コードを改変しているようです。

Bitbucketにて公開されています。
https://bitbucket.org/eunjeon/mecab-ko/src/master/

何をどう改変したのかはコミットログを見て、、、も、私は分かりません:sweat:
(README読む限りでは、空白文字の扱いが違うっぽい)

インストール

ひとまずMacbook Airにインストールします。
- mecab-ko本体をインストール
- 韓国語用辞書をインストール

mecab-ko本体をインストール

Macであれば、homebrewであっさりインストールできます。
といってもREADMEにソースコンパイルの手順書いてるので、
Linuxへのインストールも苦ではないです。

$ brew install mecab-ko
==> Downloading https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz
==> Downloading from https://bbuseruploads.s3.amazonaws.com/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz?Signature=Db
######################################################################## 100.0%
==> ./configure --prefix=/usr/local/Cellar/mecab-ko/0.996-ko-0.9.2 --sysconfdir=/usr/local/etc
==> make install
🍺  /usr/local/Cellar/mecab-ko/0.996-ko-0.9.2: 21 files, 4.3MB, built in 1 minute 15 seconds

韓国語用の辞書をインストール

mecab-ko-dicという名前で、Bitbucketで配布されています。
https://bitbucket.org/eunjeon/mecab-ko-dic/

インストール手順は2パターン記載があります。
automakeのバージョンが1.11でない場合、
autogen.shを実行する手順であればちゃんとインストールできそう。

$ wget https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz
$ tar zxfv mecab-ko-dic-2.1.1-20180720.tar.gz 
$ cd mecab-ko-dic-2.1.1-20180720
$ ./autogen.sh
$ ./configure 
$ make
$ make install

これで下記ディレクトリに辞書がインストールされます。

$ ls /usr/local/lib/mecab/dic/mecab-ko-dic/
char.bin    left-id.def model.bin   rewrite.def sys.dic
dicrc       matrix.bin  pos-id.def  right-id.def    unk.dic

mecab-koを使う

mecabコマンドで起動できます。
韓国プロ野球(KBO)のニュースの見出しを形態素解析してみます。

ニュース記事:
https://www.koreabaseball.com/News/Preview/View.aspx?bdSe=38482

記事見出し「승리 목마른 소사, 한화 상대로 9승 도전」

$ mecab
승리 목마른 소사, 한화 상대로 9승 도전
승리  NNG,행위,F,승리,*,*,*,*
목마른   VA+ETM,*,T,목마른,Inflect,VA,ETM,목마르/VA/*+ᆫ/ETM/*
소사  NNG,*,F,소사,*,*,*,*
,   SC,*,*,*,*,*,*,*
한화  NNG,*,F,한화,*,*,*,*
상대  NNG,*,F,상대,*,*,*,*
로 JKB,*,F,로,*,*,*,*
9   SN,*,*,*,*,*,*,*
승 NNBC,*,T,승,*,*,*,*
도전  NNG,*,T,도전,*,*,*,*
EOS

とりあえず形態素解析できましたが、、
なるほどハングル読めないからよく分からん。

(続く)

5
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
0