文章の中から重要な文を抽出する． #tfidf

1，tfidfで文章の重要な単語をあぶり出します．
2，その単語が出現している文のなかでより多く出現した文を重要な文とします．
最も出現した文というのは複数あるかもしれません．そこだけ注意してください．

その前段階として文章を文に区切ったりしますが，適宜コードを眺めてご理解ください．

著作権は私にあるので，ご使用は自由に．
これをコピーしてtxtファイルにしてcolabに渡してやります．
https://syosetu.com/usernoveldatamanage/top/ncode/748763/noveldataid/7054824/

イメージ図（人力で作りました．）

この手法は結局，文章に共起性が無いと利用できないのと，ある程度の大きさの文章が必要になります．
また果たしてこれが重要と言えるのかと疑問がありますが，それは共起性という観点でみるとそう言えると思います．

また，短文の文章である，Tweetの何処が一番重要なのかというような判定はできません．

そのような短文の文章の何処が重要かを確率的に出す手法を現在研究中です．
できたらarXivかなんかにあげます．（あげたい）