Opinion Spam(レビューサイトにおける業者のステマ行為のこと)の対策方法を調べているのだけれど、手動だと膨大な手間がかかるので機械学習を使ってなんとか自動でOpinion Spamを検出したい。
ググっていたらこの発表資料に書いてある特徴量一覧がよさ気だったのでメモ。
- レビューの言語的内容
- レビュアーのメタデータ
- スターレーティング
- ユーザーID
- レビュー投稿時間
- レビューを書いて投稿するのに要した時間
- IPアドレスとMACアドレス
- レビュアーの地理位置情報
- 製品情報
- プロダクトの説明文
- 販売量
- 売上ランキング
- サイト内にある内部的情報は有用、しかし部外者が手に入れることは困難