【自然言語処理】頻出フレーズを抽出するアプローチについて
解決したいこと
任意の日本語の文章から、頻出するフレーズを抽出したいと思っており、どういった手法が良いかを模索しています。
実験・探求していきたいというよりかは、便利なライブラリがあれば使っていきたいというスタンスです。
「頻出する単語」であれば、形態素解析してカウントすれば終わりですが、ここでいう「頻出するフレーズ」とは、「頻出する、単語の連なり」となります。
Web上で見つけたのは、gensimのPhrasesを使うというアプローチです。(下記ページ参考)
ただ、他にもし良いアプローチがありましたら、ご教示いただけますと幸いです。
現状、形態素解析には、Sudachiをメインに使用しており、その関係で、GiNZA・spaCyを使ってでもできるのかなぁ?とも思っております。