LoginSignup
4

More than 5 years have passed since last update.

posted at

言語処理学会第23回年次大会(NLP2017)で使われている形態素解析器・辞書を調べる

言語処理学会第23回年次大会の資料(PDF)が公開されています。このなかから、どのような形態素解析器、辞書が利用されているか調べてみます。

PDFの取得

PDFのURL一覧を取得するために、以下の方法を取りました。

出来上がったリストを元にwgetでPDFを取得します。

wget -c -w 10 -i pdflist.txt

公開されているPDFの数は306(とエラッタが1)でした。

PDFのテキスト化

popplerに付属のpdftotextを用いてPDFをテキスト化します。

for i in *.pdf; do pdftotext $i; done

grepによるカウント

"grep -l"でヒットしたファイルの名前だけを出力できます(OSによってはない点に注意)。

grep -l -i neologd | wc -l
8

ただ、単純なmatch数だけでは必ずしもその辞書が利用されているとも限らないので、実際にはマッチしたファイルの内容について精査する必要があります。

結果

精査した結果は以下になります。論文中、単に名称を言及しただけのものは除外してあります。

形態素解析器

MeCab JUMAN JUMAN++
22 10 4

MeCabで使われている辞書

ipadic mecab-ipadic-NEologd UniDic naist-jdic jumandic
2 9 13 1 1

所感

  • アカデミック用途ではUniDicが強い
  • 品詞体系としてUniDicやJUMAN辞書のものが参照されることが多い
  • SNS等のデータを扱う場合はNEologdが選ばれることが多い

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
4