More than 3 years have passed since last update.

はじめに

　こんにちは、んがょぺです！バリバリの文系ですが、AIの可能性に興味を持ったのがきっかけで、AI特化型スクール「Aidemy」に通い、勉強しています。ここで得られた知識を皆さんと共有したいと思い、Qiitaでまとめています。以前のまとめ記事も多くの方に読んでいただけてとても嬉しいです。ありがとうございます！
　今回は、ランキング学習の一つ目の投稿になります。どうぞよろしくお願いします。

＊本記事は「Aidemy」での学習内容を「自分の言葉で」まとめたものになります。表現の間違いや勘違いを含む可能性があります。ご了承ください。

今回学ぶこと
・ランキング学習とは
・特徴ベクトルの成分
・重みベクトルの学習
・ランキング学習の性能評価指標

・特徴ベクトルの成分の2つ目は__「IDF（Inverse Document Frequency）」__である。これは、__総文書数Dに対して、クエリqが含まれる文書dの数が少ないほど、値が大きくなる__と言うものである。すなわち、__あるクエリqがどれぐらい珍しいか__を示す指標であると言える。計算式は以下の通りである。
$$IDF(q)=log(\frac{D}{d})+1$$
・上記式について、$log(\frac{D}{d})$としているのは、特にdが小さい時、例えばd=1であるときとd=2であるとき、対数を取らないと値が2倍も変わってしまうから__である。文書の数は1つしか違わないのに、希少性が2倍も違うと言うのは極端なので、対数を取ることでこのような結果にならないようにしている。
・以下では、実際に文書D中の任意のクエリqを渡すことでIDFの値を計算してくれる関数「IDF()」__を作成し、「light」「a」「to」についてIDFの値を求めている。（文書は前項のような感じだが、長いので割愛）

BM25

・__BM25__は、__TFとIDFと、新しいNDL__の3つの指標を組み合わせた__合成指標__である。__NDL（Normalized Document Length）__は、__ある文書dが、全文書の平均の長さに比べてどれぐらいの長さか__を示す指標である。文書dが短いほどNDLの値は大きくなる。
・NDLは、ある文書を$d_k$とし、全文書の長さの平均を$\overline{DL}$とすると、以下のように表せる。
$$NDL(d_k)=\frac{DL(d_k)}{\overline{DL}}$$

・具体的なコードは以下の通り。

・コードの説明として、前提として、複数の文書からなる全文書Dがあり、そのうちの一つ（d）をdocとしてこの関数に渡しているとする。__「term_list」はdocをスペースで区切ることで単語に分割しており、「doc_len」はこの単語の個数である。その他の文書についてもfor文で「term_n_list」に単語を格納し、「sum_doc_len」に全文書の長さを格納している。
・計算部分は、公式通りに行えば「(doc_len)/(sum_doc_len/len(D))」であるが、割り算が二箇所で出てきているので、「(doc_len*len(D))/(sum_doc_len)」__としている。

・以上のNDFも含め、計3つの合成指標であるBM25は、以下の特徴がある。
　・文書d中にクエリqが頻出であるほど値は大きくなる（TF）
　・全文書中でクエリqが頻出であるほど値は小さくなる（IDF）
　・文書dが短いほど値は大きくなる。（NDL）

・BM25の具体的な定義は以下のようになる。
$$BM25(q,d)=IDF(q);\frac{(K_1+1);TF(q,d)}{K_1;(1+b;(NDL(d)-1);)+TF(q,d)}$$

・以上の定義について、「$k_1$」は単語の__出現頻度__による影響を、「$b$」は文書の__長さ__による影響を、それぞれ調整するハイパーパラメータである。一般的に、「$k_1$」は1.5、「$b$」は0.5に設定されることが多い。

・具体的なコードは以下の通り。

PageRank

・__PageRank__は、__リンク関係__をもとに__Webページの重要度__を決定するアルゴリズムである。前項までの3つはクエリ依存型であったが、これは__クエリ非依存型__である。
・PageRankの概念は、簡単に言うと「__多くのWebページから__リンクが飛んでいるWebページは重要である」「重要なWebページから__飛んでいるWebページも重要である」となる。
・(発展)PageRankの求め方をにみていく。一つの求め方として「グラフ理論」__があり、各ページをノード、リンクをエッジとみなした行列（隣接行列）を考える。隣接行列Aについて、あるノードiから他のノードjにリンクが伸びているときに1、そうでない時に0をとるとする。また、このAを転置させた場合、逆にノードjからノードiにリンクが飛んでいる時1を取ることになる。この時列について正規化した行列をBとすると、このBは__推定確率行列__と呼ばれるものになる。この成分については、ノードjにいるユーザーがノードiにジャンプする確率を表し、この最大固有値の固有ベクトルの各要素の値が、PageRankとなる。

性能評価の指標

・ランキングの適切さを図るための指標としては、以下のようなものがある。
　・Precision@K
　・Average Precision
　・Reciprocial Rank
　・DCG, NDCG

・また、ランキング学習の性能評価では、__「ランキング上位の正確さ」__が重視される。
以降では、下図のように、文書に順位とラベルが与えられたものをランキングとして定義している。

Precision@K

・__Precision@K__は、ランキングの上位K番目までの文書のうち、__適合であるものの割合__をスコアとするものである。前項の図でK＝6、すなわち上位6文書の適合率を見ると、4/6=「2/3」であることがわかる。

Average Precision

・__Average Precision(AP)__について、ランキングk位までを対象にしたAP(k)は、それより上位のランキングで適合である文書$d_i$について、__Presicion@iの平均をとったもの__である。例えば上図でAP(3)であれば、3位より上位で「適合」であるのは「1位」「3位」であるので、Precision@1とPrecision@３を算出し、その平均を取れば良い。計算すると、(1+2/3)/2=「5/6」がAP(3)である。
・このように算出されると、__ランキング上位の適合文書は重複して計算される__ことになるので、その分ランキング上位の適合度が重要視された手法であるといえる。

Reciprocial Rank

・__Reciprocial Rank（RR）__は、最初に適合文書が出てくる順位がK位__である場合、「1/K」__で算出される指標である。例えば、1位と2位が不適合で、3位が適合であった場合、K=3であるので、RR=「1/3」と言うことになる。
・ユーザーごとにRRの平均をとったものを__MeanReciprocialRank__という。実際にはこちらが使われる。

DCG, NDCG

・__DCG__はDiscounted Cumulative Gainの略で、順位によって__割引されたスコア__の合計値を表す。DCGで扱うランキングは、評価が「適合」「不適合」ではなく、数値で与えられた、以下のようなものである。

・割引の仕方について、ランキング2位以下の評価$r_k$について、これを$log_2r_k$で割ることで行う。

・__NDCG__はDCGを__正規化（Normalized）した指標であり、上記手法で算出したDCGを「ランキング内の全ての評価が満点である場合」__のDCGで割ることで算出される。（上記図で言うと、満点は4.0）

まとめ

・ランキング学習__とは、定義した重要度に基づいて__情報を並べる__ための機械学習の手法である。この学習を行う際の指標となるのが__ランキング関数__で、一般的には「特徴ベクトルと重みベクトルの内積」で求められる。
・特徴ベクトルの成分には「TF」「IDF」「BM25」「PageRank」がある。
・重みベクトルの学習方法としては「二値分類」「PRank」「Pairwise」__がある。
・ランキング学習の性能評価指標としては、「Precision@K」「Average Precision」「Reciprocial Rank」「DCG,NDCG」がある。

今回は以上です。最後まで読んでいただき、ありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ランキング学習1　入門編

はじめに

ランキング学習について

ランキング学習とは

クエリ-文書ペア

ランキング関数

特徴ベクトルの成分

TF

IDF

BM25

PageRank

ランキング学習のアルゴリズム

重みベクトルの学習方法

二値分類

PRank

Pairwise

性能評価の指標

Precision@K

Average Precision

Reciprocial Rank

DCG, NDCG

まとめ

ランキング学習1 入門編

はじめに

ランキング学習について

ランキング学習とは

クエリ-文書ペア

ランキング関数

特徴ベクトルの成分

TF

IDF

BM25

PageRank

ランキング学習のアルゴリズム

重みベクトルの学習方法

二値分類

PRank

Pairwise

性能評価の指標

Precision@K

Average Precision

Reciprocial Rank

DCG, NDCG

まとめ

ランキング学習1　入門編