MRRとは?
MRR (Mean Reciprocal Rank) は情報検索システムの評価指標のひとつです。
MRRでは、検索結果のランキングにノイズが少なく、できるだけ上位に適合文書が存在することを重視するタイプの指標で、特に、検索結果ランキングを上位からながめたときに何番目に適合した文書(正解)があるか確認します。
MRRでは、ひとつの検索結果において、最初に見つかった適合文書のランクの逆数をスコアとします:
1位 = 1/1=1.0
2位 = 1/2=0.5
3位 = 1/3=0.333...
4位 = 1/4=0.25
さらに、こうした検索結果に対するスコアを複数そろえたときに、その平均をとったものをMRR値になります。
以下は、3つのサンプルクエリを対象とした上位5位までの書籍検索結果の例です(表中で(適合文書)と示した結果が適合文書の場合):
Rank | 検索結果1(query: “1984”) 情報要求: ジョージ・オーウェルの小説「1984」を読みたい |
検索結果2 (query: “it”) 情報要求: スティーブン・キングによる小説「it」を読みたい |
検索結果3 (query: “こころ”) 情報要求: 夏目漱石の小説「こころ」を読みたい |
---|---|---|---|
1 |
(適合文書) 一九八四年, ハヤカワepi文庫 ; epi 53 ジョージ・オーウェル著, 高橋和久訳. 早川書房, 2009 |
ITナビゲーター = Information Technology Navigator, 2020年版 野村総合研究所ICTメディア・サービス産業コンサルティング部著. 東洋経済新報社, 2019 |
心 姜尚中著. 集英社, 2013 |
2 | 1984年のUWF 柳澤健著. 文藝春秋, 2017 |
ITリスクの考え方, 岩波新書 佐々木良一著. 岩波書店, 2008 |
心。 : 人生を意のままにする力 稲盛和夫著. サンマーク出版, 2019 |
3 | 経済数学の直観的方法マクロ経済学編 長沼伸一郎著. 講談社, 2016 |
ITが守る、ITを守る : 天災・人災と情報技術, NHKブックス = NHK BOOKS ; 1187 坂井修一著. NHK出版, 2012 心, 百年文庫 ; 6 |
ドストエフスキー, 芥川龍之介, プレヴォー著, 小沼文彦, 森鴎外訳. ポプラ社, 2010 |
4 | 多言語社会ルクセンブルクの国民意識と言語 : 第二次世界大戦後から1984年の言語法、そして現代 小川敦著. 大阪大学出版会, 2015 |
ITロードマップ : 情報通信技術は5年後こう変わる!, 2019年版 野村総合研究所デジタル基盤開発部, NRIセキュアテクノロジーズ著. 東洋経済新報社, 2019 |
(適合文書) こゝろ, 角川文庫 夏目漱石[著]. 角川書店, 2004 |
5 | 1984年のビーンボール : オダジマタカシスポ~ツコラム大鑑 小田嶋隆著. 駒草出版, 2007 |
IT全史 : 情報技術の250年を読む 中野明著. 祥伝社, 2017 |
こころ 谷川俊太郎著. 朝日新聞出版, 2013 |
検索結果1のスコア = $1/1=1.00$
検索結果2のスコア = $0.00$
検索結果3のスコア = $1/4=0.25$
上記、検索結果1から3までのMRR(平均値) = $(1.00+0.00+0.25)/3=0.41666... \sim 0.417$
MRRは 0.0 から 1.0 までの範囲を取り、最大値は1.0です。MRR値が0.5を超えていれば、平均的に2件目までに適合文書があることが期待できるため、一定の性能があることが分かります。
一方で、最初の1件分の適合文書しか確認しないため、既知事項検索のような1件だけでも適合文書を確認すれば十分な状況には有効な指標ですが、複数の適合文書を確認しなければいけないような状況には不適切です。その場合には、平均精度等、他の評価指標を使うことをお勧めします。
また、MRRが扱う適合度は、適合か不適合かの2値 (binary relevance) が前提となっており、部分適合等の段階的な適合度 (graded relevance) を扱うことはできません。
参考文献
- 酒井哲也. 情報アクセス評価方法論 : 検索エンジンの進歩のために. コロナ社, 2015, 297p.
- Mean reciprocal rank. https://en.wikipedia.org/wiki/Mean_reciprocal_rank (2021-04-18参照)