More than 5 years have passed since last update.

協調フィルタリングでアイテムの推薦をする

193

Last updated at 2015-01-09Posted at 2015-01-09

あけましておめでとうございます。すでに年が変わってからだいぶ経った気もしますが、リハビリも兼ねて今日は集合知プログラミングの第二章を題材に協調フィルタリング (レコメンデーション) について書いてみます。

協調フィルタリングを大雑把に説明すると、多くの人数の集団を検索し、ある対象の好みによく似た小集団を発見する方法です。大きく分けて、ある人に似た他の人を探し出すにはユーザーベース、あるアイテムを選んだ人による重み付けスコアを算出することによるアイテムベースなどといった方法があります。

元データ

ある会社 A 社の社内食堂でランチをした人にここ 10 日間ほどの感想を 5.0 を満点として採点してもらいました。

それぞれのメニューに対する評点は次の通りでした。なお一度も食べなかったメニューは -- となっています。

名前	カレー	ラーメン	チャーハン	寿司	牛丼	うどん
山田さん	2.5	3.5	3.0	3.5	2.5	3.0
田中さん	3.0	3.5	1.5	5.0	3.0	3.5
佐藤さん	2.5	3.0	--	3.5	--	4.0
中村さん	--	3.5	3.0	4.0	2.5	4.5
川村さん	3.0	4.0	2.0	3.0	2.0	3.0
鈴木さん	3.0	4.0	--	5.0	3.5	3.0
下林さん	--	4.5	--	4.0	1.0	--

みな味の好みがバラバラで、同じメニューでも人によって採点が高かったり低かったりしているようです。

似ている人を探す

何らかの対象に対して人々の評価が集まったとき、その傾向が似ている程度を決定する基準が必要になります。これを 類似性スコア (Similarity score) と言います。類似性スコアの算出にはさまざまな方法がありますが、上記の集合知プログラミングではユークリッド距離とピアソン相関係数が取り上げられています。いずれも 2 つの確率変数の間の関連度合いを表す尺度であり -1 から 1 の範囲を取ります。

ユークリッド距離

ここでは 平方ユークリッド距離 (Squared Euclidean distance) を使います。これはそれぞれの軸の上での差を求め、その二乗を累計するものです。つまり数式では

d^2(p-q) = (p_1 - q_1)^2 + (p_2 - q_2)^2 + ... + (p_n - q_n)^2

となります。これを Ruby のコードで表すと

def sim_distance(prefs, person1, person2)
  shared_items_a = shared_items_a(prefs, person1, person2)
  return 0 if shared_items_a.size == 0
  sum_of_squares = shared_items_a.inject(0) {|result, item|
    # 差を二乗して加算していく
    result + (prefs[person1][item]-prefs[person2][item])**2
  } 
  return 1/(1+sum_of_squares)
end

def shared_items_a(prefs, person1, person2)
  prefs[person1].keys & prefs[person2].keys
end

たとえば山田さんと田中がどれくらい似ているかを計算すると 0.14814814814814814 点となります。

ピアソン相関係数

ピアソンの相関係数 (Pearson correlation coefficient) は、データが正規化されていないような状況でユークリッド距離よりも良い結果を得られることが多いとされています。

なぜなら、ある評価者 A が辛口の評価を、評価者 B が甘口の評価をする傾向があったとします。しかしそれぞれのアイテムに対する評価の差に相関があった場合、これが高い相関係数を示すという特徴があるためです。

(例)
A さん「ラーメンはまずまずで 3 点だがカレーとチャーハンはイマイチだから 1.5 点だな……。」
B さん「ラーメンはうまくて 5 点だがカレーとチャーハンはふつうで 3.5 点だな……。」

↑評価の傾向が似ている (それぞれのアイテムの差が同じ) ため高い相関を示す。

定義式は次の通りです。

\rho_P = \frac{\mathrm{E}_{X,Y}[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{\mathrm{E}_X[(X-\mu_X)^2]}\sqrt{E_Y[(Y-\mu_Y)^2]}} \\
ただし \\
\mu_X=E_X[X], \mu_Y=E_Y[Y]

Ruby では

def sim_pearson(prefs, person1, person2)
  shared_items_a = shared_items_a(prefs, person1, person2)

  n = shared_items_a.size
  return 0 if n == 0

  sum1 = shared_items_a.inject(0) {|result,si|
    result + prefs[person1][si]
  } 
  sum2 = shared_items_a.inject(0) {|result,si|
    result + prefs[person2][si]
  } 
  sum1_sq = shared_items_a.inject(0) {|result,si|
    result + prefs[person1][si]**2
  }
  sum2_sq = shared_items_a.inject(0) {|result,si|
    result + prefs[person2][si]**2
  } 
  sum_products = shared_items_a.inject(0) {|result,si|
    result + prefs[person1][si]*prefs[person2][si]
  }

  num = sum_products - (sum1*sum2/n)
  den = Math.sqrt((sum1_sq - sum1**2/n)*(sum2_sq - sum2**2/n))
  return 0 if den == 0
  return num/den
end

となります。

たとえば山田さんと田中がどれくらい似ているかを計算すると 0.39605901719066977 点となります。

類似度を算出する

下林さんに食の好みが似ている人は誰でしょうか。調べてみましょう。

# データをハッシュで持たせておく
def top_matches(prefs, person, n=5, similarity=:sim_pearson)
  scores = Array.new
  prefs.each do |key,value| # ハッシュを each して
    if key != person
      # 類似度算出アルゴリズムのメソッドに人名とアイテム、スコアを送信する
      scores << [__send__(similarity,prefs,person,key),key]
    end
  end
  scores.sort.reverse[0,n] # スコアの降順にソートして返却
end

p top_matches(critics_ja, '下林')

下林さんに似ている人は

1 位山田さん 0.9912407071619299 点
2 位川村さん 0.9244734516419049 点
3 位鈴木さん 0.66284898035987 点

となりました。

似ているアイテムを探す

最後にメニュー同士で似ているものを探してみましょう。それでは寿司に似ているメニューは何でしょうか。

これは元データの逆行列を求めれば良いわけですから簡単です。

# 逆行列を求めるメソッド
def transform_prefs(prefs)
  result = Hash.new
  prefs.each do |person, score_h|
    score_h.each do |item, score|
      result[item] ||= Hash.new
      result[item][person] = score
    end
  end
  result
end

menu = transform_prefs(critics_ja)
p top_matches(menu, '寿司')

これにより寿司に似ているメニューは

1 位牛丼 0.6579516949597695 点
2 位カレー 0.4879500364742689 点
3 位ラーメン 0.11180339887498941 点

となりました。

まとめ

今回の記事のソースコードはこちらです。

集合知プログラミングをもとに協調フィルタリングの実装によって推薦をおこなう例を説明しました。

193

185

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up