2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

論文まとめ:複数文書からの重要情報の抽出と表の生成

Last updated at Posted at 2019-04-09

気になった論文を読み、自分なりにまとめるシリーズです。

複数文書からの重要情報の抽出と表の生成(鳥取大学、龍谷大学, 言語処理学会 2018)

###先行研究
word2Vecを用いて、wikipediaの城関連ページ→単語のみ→ベクトル→クラスタリング→表の生成

###本研究
word2Vecを用いて、wikipediaの城関連ページ→文章全体→ベクトル→(x-means法)クラスタリング→表の生成(各クラスタの重要度スコア算出)

  • 単語→文章:単語では情報が不十分
  • 整理した表の、列ごとの情報抽出の再現率62%→90%

image.png
(出典:上記論文)

###本論文の工夫箇所

  • 一文に別の複数の内容が内包されているとき:人口は10人で、面積は100m2。→「人口は10人」と「面積は100m2」に分解すべき。
    • 構文解析(例:KNP)→文意で、文節で区切る。
    • 格解析(例:KNP)→どうやら、各文章の末尾をうまく文章終了形に変形する。
    • 各文章の格要素ごとに、形態素解析→名詞だけ、品詞分類1が代名詞、数、非自立、副詞可能以外を抽出。
    • 単語ベクトルモデル:fastText(2層NN。隠れ層は単語の分散表現に相当。)。学習データは、wikipedia全記事、単語ベクトルは300次元。
  • 抽出した単語のベクトルの平均値を、その格要素ベクトルとする。
  • 格要素ベクトルの総和を文ベクトルとする。
  • クラスタごとの重要度計算(Xmeans法)
    • 密集率の高いクラスタの重要度 > 密集率の低いクラスタの重要度
      • クラスタ内の文章が互いによく似てる→密集してる
    • 多くの文章を含むクラスタの重要度 > 少数の文章を含むクラスタの重要度
      • 100個の文章のうち、20個がk番目のクラスタに分類された→k番目のクラスタの重要度ck=20/100=0.2。
  • 情報抽出の評価方法
    • F値使う。
  • 以下、本論文が優れている例

image.png
(出典:上記論文)

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?