####有用性の観点(案)
・評価の根拠がある
・投稿者が商品の使用者であると判断できる
・レビュー対象の商品について情報量が十分である(個人差がある)
・レビューの投稿者が, 商品を使用したと推測できる
・レビュー中に, 他の商品との比較がされている
・商品についての言及が多い
・文字数が長い(情報量がある)
・紹介文にある商品の特徴やスペックに言及している
・レビュー中に評価の根拠がある
・商品についてpositive/negativeな意見がある
・商品の問題のある特徴に対して, 解決案を提案している
[引用]"商品レビューを対象とした有用性の定義と判別", 佐々木, 2014. [引用元リンク]
[引用]"From Helpfulness Prediction to Helpful Review Retrieval for Online Product Reviews", Chau Vo, Dung Duong et al, 2018 [引用元リンク]
#Readability
####Estimating the Helpfulness and Economic Impact of Product Reviews: Mining Text and Reviewer Characteristics, Anindya Ghose and Panagiotis G. Ipeirotis, 2010.
参照元
有用性と経済的影響を推定
有用性の素性の一つにReadabilityを使用
使用したReadabilityのメトリック:
- Automated Readability Index
- Coleman-Liau Index
- Flesch Reading Ease
- Flesch-Kincaid Grade Level
- Gunning fog index
- SMOG
計算方法
引用:
"患者向け説明文書の可読性判定, 酒井, 2006." 参照元
"読みやすさの指標について, A&People" 参照元
###SMOG
簡単な方法で文書の可読性(Readability)を示す学年レベル(Grade Level)を計算できる.
学年はアメリカの学年で示される.
ヘルスケア系の資料で広く利用
- 文書の最初, 中間, 最後の3か所から10ずつ計30の連続する文章を抽出する.
- 30の文書から3つ以上の音節を持つ多音節語の数をカウントする
- 多音節語の数の平方根を求め, 3を足す.
$$grade = 1.0430\sqrt{number\ of\ polysyllables\times \frac{30}{number\ of\ sentences}} +3.1291$$
####Automated Readability Index(ARI)
米国陸軍で使用する文書用に作成された
技術資料などで利用
$$4.71(\frac{number\ of\ characters}{number\ of\ words})+0.5(\frac{number\ of\ words}{number\ of\ sentences})-21.43$$
####Coleman-Liau index(CLI)
$$CLI=0.0588L-0.296S-15.8$$
L: 100単語あたりの平均文字数
S: 100単語あたりの平均文数
####Flesch Reading Ease(FRE)
$$206.835-1.015(\frac{total\ words}{total\ sentences})-84.6(\frac{total\ syllables}{total\ words})$$
syllables: 音節
####Flesch-Kncaid Grade Level(FKG)
FREの改善版?
$$0.39(\frac{total\ words}{total\ sentences})+11.8(\frac{total\ syllables}{total\ words})-15.59$$
####Gunning Fog Index(GFI)
$$Grade\ Level = 0.4(ASL+PHW)$$
ASL: 平均文長
PHW: (i)固有名詞、(ii)簡単な単語またはハイフンでつながれた単語の組み合わせ、または(iii)-esおよび-edで終わる3音節の動詞ではない3つ以上の音節の単語数を数え, サンプルパッセージの数または単語数で割ったもの
#ほかの商品との比較
どういうキーワードで調べればいいかわからない
#商品の評価する表現
意見(評価表現)抽出ツール
、国立研究開発法人情報通信研究機構 旧知識処理グループ 情報信頼性プロジェクトによって開発
- 1行につき1文が書かれたテキストファイルが入力, 以下の情報を出力
- その評価情報を表す表現の抽出(評価表現抽出)
- その評価情報の意味的な分類(評価タイプ分類)
- その評価情報が肯定的なニュアンス(ポジティブ)を表すのか、否定的なニュアンス(ネガティブ)を表すのかの判定(評価極性判定)
- その評価情報を発信する主体の抽出(評価保持者抽出)
#評価の根拠
英語で検索するにはどういうキーワード?(根拠: reasoning, background, rationale)
####"レビュー解析に基づくユーザ評価の根拠提示の一手法", 松尾, 2014.
参照元
レビュー中から評価の星の数の根拠を提示する.
商品の機能や特徴といった情報を商品属性とし, レビュー文章中の商品属性に関して記述されている文(評価文)を抽出.
対象の商品カテゴリはノートパソコンとタブレットPC
####"評価値の予測タスクでの語の重要性に基づく商品レビューの評価根拠の抽出", 清瀬, 2016
参照元
評価文からSVMを用いて評価値を予測し, 予測に用いた素性から評価の根拠を抽出