More than 5 years have passed since last update.

言語処理学会第23回年次大会(NLP2017)で使われている形態素解析器・辞書を調べる

Posted at 2017-03-30

言語処理学会第23回年次大会の資料(PDF)が公開されています。このなかから、どのような形態素解析器、辞書が利用されているか調べてみます。

PDFの取得

PDFのURL一覧を取得するために、以下の方法を取りました。

出来上がったリストを元にwgetでPDFを取得します。

wget -c -w 10 -i pdflist.txt

公開されているPDFの数は306(とエラッタが1)でした。

popplerに付属のpdftotextを用いてPDFをテキスト化します。

for i in *.pdf; do pdftotext $i; done

"grep -l"でヒットしたファイルの名前だけを出力できます(OSによってはない点に注意)。

grep -l -i neologd | wc -l
8

ただ、単純なmatch数だけでは必ずしもその辞書が利用されているとも限らないので、実際にはマッチしたファイルの内容について精査する必要があります。

精査した結果は以下になります。論文中、単に名称を言及しただけのものは除外してあります。

MeCab	JUMAN	JUMAN++
22	10	4

ipadic	mecab-ipadic-NEologd	UniDic	naist-jdic	jumandic
2	9	13	1	1