LoginSignup
3
2

More than 5 years have passed since last update.

文章の中から重要な文を抽出する.

Last updated at Posted at 2018-10-19

基本的なプロセス

1,tfidfで文章の重要な単語をあぶり出します.
2,その単語が出現している文のなかでより多く出現した文を重要な文とします.
最も出現した文というのは複数あるかもしれません.そこだけ注意してください.

その前段階として文章を文に区切ったりしますが,適宜コードを眺めてご理解ください.

利用した小説

著作権は私にあるので,ご使用は自由に.
これをコピーしてtxtファイルにしてcolabに渡してやります.
https://syosetu.com/usernoveldatamanage/top/ncode/748763/noveldataid/7054824/

コード
https://nbviewer.jupyter.org/gist/Ooshita/1eaf18bacf8b71a35379ce1078c66d13

推定された文

スクリーンショット 2018-10-20 5.39.44.png
イメージ図(人力で作りました.)

最後に

この手法は結局,文章に共起性が無いと利用できないのと,ある程度の大きさの文章が必要になります.
また果たしてこれが重要と言えるのかと疑問がありますが,それは共起性という観点でみるとそう言えると思います.

また,短文の文章である,Tweetの何処が一番重要なのかというような判定はできません.

そのような短文の文章の何処が重要かを確率的に出す手法を現在研究中です.
できたらarXivかなんかにあげます.(あげたい)

3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2