Edited at

文書クラスタリングにおけるcoherence評価のためのword intrusion taskの拡張案

More than 1 year has passed since last update.

現在,就活中のMt.Happyです.今回は以下のエントリーでお送りします.


はじめに

本ノートでは,文書クラスタリングに対して,そのクラスタリング結果が「人にとってわかりやすい」クラスタリングであるかについて,word intrusion taskを用いて評価を行う手法を述べる.

word intrusion taskは2009年にChangらによって提案された画期的なトピックの評価方法であり,これまで様々な改良案が提案された.したがって,この手法の改良を行うことはそれなりの目的意識を持って改良しなければならないと考え,本ノートを作成するに至った.


背景

文書クラスタリングにおいて,そのクラスタリング結果が「人にとってわかりやすくまとまっている」について,定量的に判断することは容易ではない.例えば,混合分布モデルを用いて手持ちのデータをクラスタリングした場合,各データのそれぞれのクラスタに所属する確率を求めることができる.しかし,その所属する確率が高いとはいえ,それが「人にとってわかりやすくまとまっている」であることを保証するものではない.


同様の問題を解決するために,LDAではCoherenceと呼ばれる評価指標が存在する.CoherenceはLDAによって得られたトピックをユーザに簡単なタスクを実行してもらうことでトピックの質,つまり「人にとってわかりやすく」語がまとまっているか評価するものである.[Chang, 2009]


また近年では,WikipediaのコーパスやLDAの訓練データを用いることによって自動的にCoherenceを算出する方法も提案されている.[Newman, 2010][Mimno, 2011]


本ノートでは,CoherenceをLDA以外の文書クラスタリングのアプローチ,特に重心をクラスタの代表点とみなす文書クラスタリングの評価に用いることを目的とする.

現在,CoherenceはLDAに対応した評価した手法であり,そのトピックにおいて出現確率の高い語をユーザに提示することによって評価を行なっている.一方,文書クラスタリングではクラスタリング結果自体が人にとってまとまりの良い形になっている必要があるため,各クラスタにおいて出現しやすい語彙ではなく,クラスタの要素となる文書のまとまりの良さを評価しなければならない.

したがって,Coherenceを文書クラスタリングに適用するためには,評価手法の拡張が必要となる. またハードクラスタリングにおいては,一見して文書がクラスタ内においてどのような位置付けがなされているか判断できないため,クラスタ重心との距離や所属確率によって各文書の分布を可視化することが望ましい.そのためにも,クラスタ重心との距離や所属確率が潜在的なトピックとの関連の強さをうまく表現できているか検証を行う必要がある.


拡張案

本ノートでは,文書クラスタリングに対してCoherenceを用いた評価を行うため,Coherece評価で行うword intrusion taskの拡張案を提案する.

従来のタスクはLDAによって生成されたトピックにおいて出現確率の高い語n件をユーザ評価のタスクの選択肢に設けていたが,文書クラスタリングではクラスタ内の文書が選択肢となる.ここで選択された文書のタイトルはあくまでラベル変数でありそれ自体が意味を持たない場合もあるため,文書タイトルと合わせて,文書内容を要約した文章も同時に被験者に公開する必要がある.

次にハードクラスタリングにおける割り当てスコア(クラスタ重心との距離や所属確率)が「人にとってわかりやすく」まとまるために機能しているか評価するために,選択肢を上位N件ではなく,あらかじめ選択肢の数だけクラスタ要素をグループに分割し,それぞれのグループからランダムに選択する方法を提案する.この時,グループの分割は割り当てスコアが高い順に文書をソートしたリストを等分割して行う.これにより,仮にintrusion wordが選択されずクラスタ内の文書が選ばれた場合においても,割り当てスコアが低いことが原因でクラスタ内要素が選ばれてしまったことが定量的に判断することが可能となる.

以上が文書クラスタリングにおけるCoherence評価のためのword intrusion taskの拡張案である.


拡張案のまとめ

前述した拡張案における従来手法の変更点を下表に示す.

変更点
Cheng, 2009
提案アプローチ

選択肢となる項目
トピックに出現する語
クラスタリングされた文書

ユーザに公開する項目
語のみ
文書のタイトルと文書を要約した文章

選択肢
出現確率の高い上位n件
クラスタ内要素をスコア順にソートとしたリストをn分割しそれぞれのグループからランダムに一つ選択


おわりに

実際に実験をしなければわかりませんが,Coherenceは文書クラスタリングにおいて有用な評価項目になると思います.皆様の参考になれば幸いです.