一ヶ月ほど期間が空いてしまいましたが、再開します。よろしくお願い致します。
前回分はこちら↓↓
http://qiita.com/ru_pe129/items/65cc0f586b49ac48213e
復習のために自分が書いた記事を読み直したのですが、恐ろしく分かりにくい文章でした。。。
改善すべく努めます…
3.4 Trends and Future Research
3.4.1 The Role of User Generated Content in the Recommendation Process
Web2.0はユーザー中心のもの である。WikipediaやFlicker、Youtubeといったサービスを例にあげるとわかりやすいだろう。つまり、システムはユーザーが使えば使うほど良いものになっていく。
ユーザーが生み出すコンテンツの一つとして、 folksonomy があげられる。folksonomyというのは、folk(民衆)とtaxonomy(分類)の造語であるが、つまり、ユーザー自身によるタグ付けのことをfolksonomyという。
推薦システムに関して多くの研究が行われてきた。しかし、一般的な推薦システム(特に内容ベース推薦システム)でタグをつけるという問題については、タグの提案(ユーザー支援)に比べるとあまり研究が行われていない。また、タグ付けには 多義性や同義性 といった困難がある。つまり、一つのアイテムに複数のタグが考えられることや異なったタグでも同じカテゴリーを示すことがあるのである。さらに、 同じアイテムに対してすべてのユーザーが同じタグをつけるとは限らず 、バックグラウンドの異なる人は異なったタグ付けを行うことも多い。
3.4.1.1 Social Tagging Recommender Systems
内容ベースの推薦システムにおいて、ユーザー自身がタグ付けを行うケースを考慮したいくつかの提案がなされている。
タグの共起性を考慮し、 WordNetを用いて推薦の効果を高めたり 、ユーザーが映画を評価する際に付けたタグを元に映画を推薦したりするといった例がある。また、ユーザープロフィールをタグをベースに表現して音楽を推薦する方法も提案されている。つまり、タグの集合でユーザープロフィールを表現し、そのユーザーが各タグを付ける頻度なども考慮して音楽を推薦するのである。
内容ベースとタグベースの二つを組み合わせたハイブリッド型の推薦システムも提案されている。ユーザーが評価したアイテムの(静的)コンテンツとタグからユーザーの特徴を定義するが、この手法では他のユーザーが付けたタグも特徴として考慮する。前述のとおり、バックグラウンドによって同じアイテムに対して異なるタグを付ける場合があるため、他のユーザーのタグも考慮するのである。
一つ考慮しなければならないのは、 ユーザーによって付けられたタグが持つ意味は大抵の場合明確ではない ということである。つまり、推薦する側がユーザーの意図を正確につかめるわけではないということだ。一つの解決方法として、言葉の意味の曖昧性をWordNetを利用して解消していくような、内容ベースとのハイブリット型が提案されている。
WordNetを利用してユーザーが付けたタグの意図や意味を正確に読み取るための提案はいくつか見られるが、ここまで紹介したものはどれも 経験に基づいた評価を行えていなかった 。経験に基づく評価を取り入れた手法として、WordNetと協調フィルタリングを組み合わせた手法が提案されている。この手法では他のユーザーが付けたタグとの距離をWordNetにおける意味的距離を基準とし、その距離をもとに協調フィルタリングを用いて推薦を行っている。
ユーザーが付けたタグの意味を識別できるようになるためにWordNetやWikipediaといった複数の情報源を活用することは重要なことである。しかし、それ以上に各ユーザーの個性や社会一般の知識、専門家の視点を取り入れることは重要である。 ユーザー自身のタグ付けは主観的で一貫性がない が、専門家の知識を利用することでより客観的な視点に近づけることが出来る。
タグ付けに関するもう一つのおもしろい視点として、タグ付けはユーザーからの強力なフィードバックとしてとらえられる点にある。 タグ付けをユーザーの満足度を図る指標として研究すること も必要になってくるだろう。
3.4.2 Beyond over-specialization: Serendipity
3.2.2で述べたように、 内容ベースの推薦システムは柔軟性がない という欠点を持っている。内容ベースの場合、既にユーザーから評価されたアイテムから推薦を行うため、 まったく新しいアイテムを推薦することは難しい 。また、新しいアイテムの推薦が苦手なだけではなく、似たアイテムを推薦することが問題になる場合がある。同じ出来事を報じたニュースを複数推薦することは適切な推薦であるとは言えないだろう。そこで、あまりに類似度が高いアイテムは推薦しないといった対策がとられている。推薦システムにおいてアイテムの 多様性 は一つの重要な要素となっている。
思いがけない、予想外なアイテムを推薦される経験を セレンディピティ と呼び、セレンディピティは推薦システムに多様性を生む一つの方法となっている。ユーザー自身、興味があることに気づいていないようなアイテムを推薦することでセレンディピティをユーザーに提供できるのだが、内容ベースの推薦システムではこのような推薦を行うことは難しい。逆にセレンディピティを与える手法を確立すれば、内容ベースの推薦システムが抱える問題を一つ解決することが出来る。
ところで、 novelty(珍しさ)とserendipity(セレンディピティ) は何が違うのだろうか。noveltyというのは、ユーザーが いずれ自分で気づくであろうアイテムを推薦されたときに経験するもの である。一方、セレンディピティはユーザーが 自力では気づくことが出来ないがとても興味を惹くアイテムを推薦された時に経験する ものである。例えば、あるユーザーが一番大好きな監督の映画を推薦するとしよう。この場合にユーザーが経験するのはセレンディピティではなくnoveltyである。ユーザーはその監督の大ファンなのだから、いずれその映画の存在に気づく可能性は高く、ユーザーが興味を持つのはある意味当たり前だろう。一方、そのユーザーが知らない監督の作品で非常におもしろい映画が推薦された場合、ユーザーが経験するのはセレンディピティと言えるだろう。
セレンディピティを生み出すのは推薦システムのアルゴリズムというよりも、推薦の運営によるところもあり、実験例が非常に少ない。セレンディピティを生み出すためのヒントとして、以下の4つが提案されている。
- ランダム性
- ユーザーの心理をプロフィールから予測する(ユーザーの固定観念を当てるというようなことでしょうか?)
- 類似度の低いアイテムを使った変則アイテムや例外アイテムの推薦
- 類似しているが、ユーザーにとっては現在未知のアイテム
基本的な考え方としては、 ユーザーが詳しくないアイテムほどセレンディピティを実現しやすい ということだろうか。これらの考え方を実現するために、ナイーブベイズを用いた手法が提案されている。
これまでのユーザーが与えた評価を元に、アイテムに対して興味がある(C+)か興味がない(C-)の二つに分類する。この二つのカテゴリーそれぞれに対する事前確率を求めると、二つの事前確率にほとんど差がないケースがありうる。二つの事前確率に差がないということは、ユーザーの好みがどっちつかずになっていると解釈できる。つまり、 ユーザーはそのアイテムに対して十分に好みを示せるほど詳しくない のである。しがたって、 「ユーザーが詳しくないアイテムほどセレンディピティを実現しやすい」 という理論に乗っとれば、二つの事前確率の差が一番小さいアイテムが一番セレンディピティを実現しやすいということになるだろう。
ところで、 セレンディピティはどうやって図るのだろうか? セレンディピティは一種の感情的な経験であり、従来の指標では図ることは難しい。セレンディピティを図る指標に関する研究もまたおもしろいトピックかもしれない。
3.5 Conclusion
本章では内容ベースの推薦システムについて述べてきた。これまで述べてきたことは内容ベースの場合に限らず、 アイテムの表現方法や手法は他の推薦システムと共通した部分も多い 。
本章で述べた内容は過去15年間における内容ベース推薦システムに関することだが、その中でも 「意味分析」を用いた手法は非常に重要 である。キーワードをベースとするような規則的な推薦を凌ぐためには、 特徴量以外の言語知識や詳しいドメイン知識が必須 である。これらの知識を利用して始めてユーザーの関心を深く正確につかむことが出来る。世界的な情報源の例としてはWikipediaがあげられるが、Wikipediaをユーザープロフィールの抽出に用いられた例はなく、更なる学習アルゴリズムの研究を進める必要がある。
3.4章で紹介した最近のトレンドはWeb2.0の革命を反映したものであると言えるだろう。 ユーザーがWebの中心になったことで推薦手法にも変化がもたらされている。
本章のまとめとして、言語処理に関する研究の重要性を強調しておく。 言語処理研究の進歩によってより信頼性のある推薦が可能になる だろう。これに関して、Googleが特許を取得しているOpen Profileに注目しておくと良いかもしれない。この手法では、ユーザーのプロフィールの意味を解析してユーザーの好みを抽出し、好みに合わせた広告を表示することを実現している。(これ?→ http://www.google.com/patents/US8341169 )
お疲れさまでした。
3.4と3.5は今後の推薦システムを考えていく上で非常に参考になるものでした。
Web3.0へ完全に移行するころにはどんな推薦手法が考案されるんでしょうか(笑)
こういったことを考えるのもおもしろいですね。
次回から4章です。