Edited at

【論文紹介】"Satisfaction with Failure" or "Unsatisfied Success"


はじめに

ユーザの検索活動において,ユーザが「検索に満足する」ことと「検索が成功する」ことの関係性について調査した論文を紹介します.

この論文は The Web Conference 2018(WWW2018)に採択されたものです.

この記事は、Wantedlyの勉強会で取り上げられた論文・技術をまとめたものです。

2018年に読んだ機械学習系論文・技術まとめ at Wantedly Advent Calendar 2018 - Qiita

また,WEBエンジニア勉強会 #10 というイベントでこの論文について紹介した際のスライドもありますので参考にしてみてください.

https://speakerdeck.com/yuya4/satisfaction-with-failure-or-unsatisfied-success-jian-suo-falsecheng-gong-to-yuzafalseman-zu-falseguan-xi


モチベーション

Web検索の性能評価において,ユーザが検索を行った際に検索行為にユーザが満足するかどうかというのは,大変重要な指標の一つです.しかし,検索活動にユーザが満足したからといって,必ずしもその検索が成功しているとは限りません.

検索タスクの完遂に必要な情報が単純で明確な場合は,「検索が成功する」こととユーザが「検索に満足する」ことは比較的一致しやすい傾向にあります.一方で,複雑な情報が必要な検索タスクにおいては,ユーザ自身が自分で手に入れた情報が十分信頼に足るものなのか判断することが難しく,その限りではありません.

本論文ではこのような,複雑な情報が必要となるような難しい検索タスクにおいてユーザが「検索に満足する」ことと「検索が成功する」ことが一致しないことがあることに注目して,その関係性を明らかにすべく検証実験と分析を行いました.


ユーザが「検索に満足する」ことと「検索が成功する」こと

本論文では,検索活動を通じてユーザが「検索に満足する」ことと「検索が成功する」ことを以下のように考えております.


「検索に満足する」


  • 検索活動を通してのユーザの主観的な感情によって測られる

  • 検索活動を行うユーザにとっての特定の情報要件が満たされていること


「検索が成功する」


  • 検索活動を通して得られる客観的な結果によって測られる

  • あらかじめ定義された基準によって測定されるか,該当ドメインの専門家によって評価される


実験

本論文ではユーザが「検索に満足する」ことと「検索に成功する」ことの関係を調べるために以下のような実験を行いました.


  • 被験者を集めて指定した(複雑な情報が必要となる)検索タスクをこなしてもらう

  • 検索活動中,ユーザは閲覧したページがユーザにとって有用であったか (Usefulness) どうかを記録する

  • 検索活動終了後,ユーザは検索タスクに対する回答をし,検索活動に満足したかどうか (User Satisfaction) のインタビューに答える

  • 検索タスクの分野の専門家によって,ユーザが検索活動中に閲覧したページが客観的にどれほど有用であったか (Potential Gain),あらかじめ用意していたタスクごとの基準に沿って評価される

  • ユーザの検索タスクに対数回答を, タスクの分野の専門家が予め用意していた基準に沿って評価される (Search Success)

以下の図は,本実験結果の一部です.

"What are the strategies that the US interest groups usually take

to achieve their own interests?(米国の利益団体が自分たちの目標達成のためによく取る戦略は何か?)" という検索タスクに対して,ユーザの満足度 (User Satisfaction) が 0.7(high),専門家によって判定された検索の成功度 (Search Success) が 0.2(low)

となっており,ユーザが「検索に満足する」ことと「検索が成功する」ことが一致していないことがわかります.

また,ユーザが検索活動中にクリックした 3 つのページについて示されています.

1 つ目のページと3 つ目のページについては,ユーザは自分では有用なページであった (Usefulness が high)と判断していますが,専門家はともに有用なページではない (Potential Gain が low) と判定しています.

一方で, 2 つ目のページではその逆で,ユーザは有用なページではなかったと判断していますが,専門家による客観的な判断では有用なページであると判定されています.

スクリーンショット 2018-12-02 23.17.18.png


結果

実験を行った結果,検索タスク全体の 28.3% が,ユーザは満足しているが検索には失敗している ("Satisfaction with Failure") 状態であり,全体の 12.0% が,ユーザは満足していないが検索には成功している ("Unsatisfied Success") 状態であり,

実に全体の 40.3% もの割合において,ユーザが「検索に満足する」ことと「検索に成功する」ことが一致していないことがわかりました.

また,実験結果の分析から,「検索に満足する」ことと「検索のが成功する」ことの不一致は,コンテンツごとにユーザが判断する有用度(Usefulness) と,専門家によって判定される客観的な有用度 (Potential Gain) が一致しないことがわかりました.そこで,本論文では,ユーザが判断する有用度 (Usefulness) を決める要因を以下の5つの点からも分析しました.


  • Objective Factors (専門家によって客観的に判定される要素)


    • Readability: 文書の読みやすさ

    • Credibility: 文書の信頼性



  • Subjective Factors (ユーザが主観的に判断する要素)


    • Difficulty: タスク開始前時点で思っているタスクの難易度

    • Interest: タスク開始前時点でのタスク内容への興味

    • Knowledge: タスク開始前時点でのタスク内容への事前知識



5 つの要素は,Objective Factors (専門家によって客観的に判定される要素) と Subjective Factors (ユーザが主観的に判断する要素) の 2 つに分類されています.

その結果を以下に示します.

まずは Objective Factors の (a) Readability と (b) Credibility の 2 つです.

(a) Readbility から見ていきましょう.

グラフの横軸は専門家によって判定される客観的な有用度 (Potential Gain) が高い(High) か低い (Low) かを表しています.グラフの縦軸はコンテンツごとにユーザが判断する有用度 (Usefulness) を表しており,上にいくほど高くなっています.

また,青い線で表されるグラフが Readability が低い場合のもので,緑の線で表されるグラフは Readability が高いものです.

もし,Readability が Usefulness になんの影響も与えない場合は,2 つのグラフは一致するはずです.

しかし,このグラフを見ると Potential Gain が高くとも低くとも,Readability が高い方が,Usefulness が高くなっています.

つまり, コンテンツの内容が客観的に正しくても正しくなくとも,読みやすければユーザは有用な情報であると判断してしまうということを表しています.

一方で,(b) Credibility のグラフに注目してみましょう.

このグラフでは,Potential Gain の高い低いに関わらず,2 つのグラフがほぼ一致しています.つまり, コンテンツの内容が客観的に信頼性のあるものかどうかはユーザが有用な情報であるかどうかの判断にあまり影響を与えないということが読み取れます.

スクリーンショット 2018-12-03 0.23.29.png

次に,Subjective Factors の 3 つについて見ていきます.

まず,(a)Pre_difficulty ですが,Pottential Gain が低い場合は,ユーザが感じたタスクの難易度はあまり Usefulness に影響を与えません.一方で,Potential Gain が高い場合,ユーザの感じる難易度が高いほど,Usefulness が低くなっています.つまり, タスクの難易度が高いほど,ユーザは実際には有用なコンテンツを有用でないと判断してしまうという傾向が読み取れます.

次に,(b)Pre_interest です.Pottential Gain が低い場合は,タスクへの興味の高低に関わらずユーザはコンテンツを有用であると判断しない傾向にあります.一方で,Pottential Gain が高い場合は, ユーザが検索タスクに興味を持っていればいるほど,有用であるコンテンツをより有用であると判断している ことが分かります.これは,ユーザが自分が興味のある内容について検索活動を行っている際にはより我慢強くコンテンツの内容を理解しようとするため,その有用性に気づきやすいことが原因として考えられます.

最後に,(c)Pre_knowledge についてですが,Pottential Gain が高い場合は,ユーザのタスクへの事前知識に関わらず,Usefulness はほぼ同じです.しかし,Pottential Gain が低い場合には, 知識を持っているユーザは有用なコンテンツを正しく有用であると判断できる ことが読み取れます.

スクリーンショット 2018-12-03 0.23.51.png

以上のように本実験では,様々な視点からユーザがコンテンツを有用であると判断することに影響を与える要因についての分析を行いました.


感想

本論文で示した結果はもしかしたらけっこう当たり前のように感じるかもしれません.しかし,このような一見当たり前なようなことを,感覚ではなく定量的にきちんと検証することが重要なのだと勝手に思っています.

そして,このような,わりかし身近に感じられるようなトピックについての論文も実はけっこう存在しています.普段,「コードを書くのは好きだけど,論文はちょっと...」って思っているエンジニアの方も,これを機に興味を持っていただければ嬉しいなと勝手に思っております👀