More than 5 years have passed since last update.

今年のACLの注目単語をWordCloudで可視化してみた

Last updated at 2019-11-20Posted at 2019-11-20

はじめに

学生時代のとある１日

教授　「君、今年のACLの論文、何か面白い論文あった？」

私　「（えっ？公開されたの昨晩なんですけど？！）・・・いえ、まだ見てないです・・・」

教授　「じゃあ、来週、今年の傾向と面白そうな論文１本紹介してね。」

私　「・・・はい」

可視化しようがしまいが、結局ある程度の論文には目を通すことになるのですが、今年の傾向を把握するために、計算＆可視化プログラムを使って（主観だけでなく）定量的な確証を得よう、ということです。

ポイントは「他の年やカンファレンスと比較して相対的にピックアップされているキーワードを抽出したい」という点です。

そのために、WordCloudで可視化するときのスコアに、単なる頻度ではなく、TFIDFを計算して採用しました。

※ ここでのD(ドキュメント)の単位は開催年別のカンファレンスに相当し、たとえば、ACL2019がドキュメント１つ、NLP2018が１つ、・・・EMNLP2019が１つ、・・・のように扱いました。

といっても、やっていることはレガシーな自然言語処理で、かつ記事上に公開するようなコードではないため、要点を箇条書きで記述するにとどめます。

プログラム詳細を知りたい方はGithubを参照してください。 https://github.com/kazuaki-i/acl_statistics

やっていることは以下の４ステップです。

気をつけた点としては、

日本語と異なる点として、英語では単語がスペースで区切られているため、Mecabとかでやる形態素解析の処理は必要ありませんが、過去形や複数形などで変化している単語を原型に戻す「ステミング」の処理が必要です（日本語ではMecabとかが形態素解析のついでにやってくれます）。

このステミングや単語分割はもっと頑張ることができると思いますが、今回は妥協して簡単な処理のみにとどめました。

ACL2019を可視化してみました。

Bertの影響だと思いますが、self-・・・という語が目につきます。
また、医療系のワークショップが開かれていた影響か、健康関連の単語もそこそこの大きさで存在します。

なお、2015年の結果は次のとおりです。

LSTMが流行りだしたころですね。はっきりとshort-termなどのそれっぽい言葉が目に付きます

ちなみにACL2019の公式？のWordCloudはこんな感じ。

まあ、NLP業界で当たり前に使われる語ばかりで、少なくとも2019年の特色を捉えているとは言えないでしょう（そもそもそういう目的で作ったWordCloudではないと思いますが）。

この記事では、ACLアンソロジーで公開されている論文のカンファレンス・年別の特徴を定量的に把握するために、タイトルに含まれている語をTFIDFでスコアリングしてWordCloudで可視化しました。
大した処理はしていませんが、なにかの役に立てば幸いです。