とりあえず試してみる
PoCレベルのものです。
極性辞書って
テストに使ったデータのScraping記事
#適当なデータを集めて、極性辞書が作れそうか見てみます
今までのコードをインポートして作ってみます。
gitはこちら
https://github.com/Katsutoshi-Inuga/polar_dict_test
補足とか
映画のレビューサイトは点数がついていましたので、
今回は無理くりですが、-1~1へ正規化しています。
たぶん分布をみてもう少し考えた方が、いいですが、今回は辞書っぽいのがつくれるのかを見たかったので
そのまま突き進みます
作成できた辞書はこんな感じです
ネガティブなワード
クイーンがネガティブなワードになっています、何ということでしょう。。。(面白かったのに。。。)
気になるのは良いという単語がネガティブになってしまいました。。。
今回はレビュー件数が160件ですので、もう少しデータを増やしてみたくなるところです
ポジティブなワード
「...」がはいってますが、これはすべてのレビューに入っていました、こういうのは除去しておくべきでしたね。
レビューの要約が...になってる為ですね。
当たり前ですが、なんとなくポジティブっぽい感じがします。
他にも意味がなさそうな単語も除去しておくべきですね
まとめ
Scrapingしたデータで辞書っぽいものを作ることは可能そうです。
ただ文章ごとの重みを計算する際の星をどういうふうに、正規化するかなどは、モデル作る人の腕の見せ所ですね