基本的なプロセス
1,tfidfで文章の重要な単語をあぶり出します.
2,その単語が出現している文のなかでより多く出現した文を重要な文とします.
最も出現した文というのは複数あるかもしれません.そこだけ注意してください.
その前段階として文章を文に区切ったりしますが,適宜コードを眺めてご理解ください.
利用した小説
著作権は私にあるので,ご使用は自由に.
これをコピーしてtxtファイルにしてcolabに渡してやります.
https://syosetu.com/usernoveldatamanage/top/ncode/748763/noveldataid/7054824/
コード
https://nbviewer.jupyter.org/gist/Ooshita/1eaf18bacf8b71a35379ce1078c66d13
推定された文
最後に
この手法は結局,文章に共起性が無いと利用できないのと,ある程度の大きさの文章が必要になります.
また果たしてこれが重要と言えるのかと疑問がありますが,それは共起性という観点でみるとそう言えると思います.
また,短文の文章である,Tweetの何処が一番重要なのかというような判定はできません.
そのような短文の文章の何処が重要かを確率的に出す手法を現在研究中です.
できたらarXivかなんかにあげます.(あげたい)