気になった論文を読み、自分なりにまとめるシリーズです。
複数文書からの重要情報の抽出と表の生成(鳥取大学、龍谷大学, 言語処理学会 2018)
###先行研究
word2Vecを用いて、wikipediaの城関連ページ→単語のみ→ベクトル→クラスタリング→表の生成
###本研究
word2Vecを用いて、wikipediaの城関連ページ→文章全体→ベクトル→(x-means法)クラスタリング→表の生成(各クラスタの重要度スコア算出)
- 単語→文章:単語では情報が不十分
- 整理した表の、列ごとの情報抽出の再現率62%→90%
###本論文の工夫箇所
- 一文に別の複数の内容が内包されているとき:人口は10人で、面積は100m2。→「人口は10人」と「面積は100m2」に分解すべき。
- 構文解析(例:KNP)→文意で、文節で区切る。
- 格解析(例:KNP)→どうやら、各文章の末尾をうまく文章終了形に変形する。
- 各文章の格要素ごとに、形態素解析→名詞だけ、品詞分類1が代名詞、数、非自立、副詞可能以外を抽出。
- 単語ベクトルモデル:fastText(2層NN。隠れ層は単語の分散表現に相当。)。学習データは、wikipedia全記事、単語ベクトルは300次元。
- 抽出した単語のベクトルの平均値を、その格要素ベクトルとする。
- 格要素ベクトルの総和を文ベクトルとする。
- クラスタごとの重要度計算(Xmeans法)
- 密集率の高いクラスタの重要度 > 密集率の低いクラスタの重要度
- クラスタ内の文章が互いによく似てる→密集してる
- 多くの文章を含むクラスタの重要度 > 少数の文章を含むクラスタの重要度
- 100個の文章のうち、20個がk番目のクラスタに分類された→k番目のクラスタの重要度ck=20/100=0.2。
- 密集率の高いクラスタの重要度 > 密集率の低いクラスタの重要度
- 情報抽出の評価方法
- F値使う。
- 以下、本論文が優れている例