LoginSignup
2
2

More than 5 years have passed since last update.

映画のレビューサイトから極性辞書を作ってみる

Last updated at Posted at 2019-03-03

とりあえず試してみる

PoCレベルのものです。

極性辞書って

テストに使ったデータのScraping記事

適当なデータを集めて、極性辞書が作れそうか見てみます

今までのコードをインポートして作ってみます。

gitはこちら
https://github.com/Katsutoshi-Inuga/polar_dict_test

補足とか

映画のレビューサイトは点数がついていましたので、
今回は無理くりですが、-1~1へ正規化しています。

たぶん分布をみてもう少し考えた方が、いいですが、今回は辞書っぽいのがつくれるのかを見たかったので
そのまま突き進みます

作成できた辞書はこんな感じです

ネガティブなワード

negative2.png
クイーンがネガティブなワードになっています、何ということでしょう。。。(面白かったのに。。。)
気になるのは良いという単語がネガティブになってしまいました。。。

今回はレビュー件数が160件ですので、もう少しデータを増やしてみたくなるところです

ポジティブなワード

positive2.png

「...」がはいってますが、これはすべてのレビューに入っていました、こういうのは除去しておくべきでしたね。
レビューの要約が...になってる為ですね。

当たり前ですが、なんとなくポジティブっぽい感じがします。
他にも意味がなさそうな単語も除去しておくべきですね

まとめ

Scrapingしたデータで辞書っぽいものを作ることは可能そうです。
ただ文章ごとの重みを計算する際の星をどういうふうに、正規化するかなどは、モデル作る人の腕の見せ所ですね

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2