言語処理学会第23回年次大会の資料(PDF)が公開されています。このなかから、どのような形態素解析器、辞書が利用されているか調べてみます。
PDFの取得
PDFのURL一覧を取得するために、以下の方法を取りました。
- w3mでhttp://www.anlp.jp/proceedings/annual_meeting/2017/index.html
にアクセス - "L"を押してページ内すべての絶対パスURLを取得
- "S"を押して出力をテキストファイルに保存
- "fgrep .pdf > pdflist.txt"でpdfのみのURL一覧を取得
出来上がったリストを元にwgetでPDFを取得します。
wget -c -w 10 -i pdflist.txt
公開されているPDFの数は306(とエラッタが1)でした。
PDFのテキスト化
popplerに付属のpdftotextを用いてPDFをテキスト化します。
for i in *.pdf; do pdftotext $i; done
grepによるカウント
"grep -l"でヒットしたファイルの名前だけを出力できます(OSによってはない点に注意)。
grep -l -i neologd | wc -l
8
ただ、単純なmatch数だけでは必ずしもその辞書が利用されているとも限らないので、実際にはマッチしたファイルの内容について精査する必要があります。
結果
精査した結果は以下になります。論文中、単に名称を言及しただけのものは除外してあります。
形態素解析器
MeCab | JUMAN | JUMAN++ |
---|---|---|
22 | 10 | 4 |
MeCabで使われている辞書
ipadic | mecab-ipadic-NEologd | UniDic | naist-jdic | jumandic |
---|---|---|---|---|
2 | 9 | 13 | 1 | 1 |
所感
- アカデミック用途ではUniDicが強い
- 品詞体系としてUniDicやJUMAN辞書のものが参照されることが多い
- SNS等のデータを扱う場合はNEologdが選ばれることが多い