はじめに
データ分析の手法の1つのマーケットバスケット分析(Market Basket Analysis)について主要な信頼度、支持度、リフト の概念についてまとめます。
マーケットバスケット分析(Market Basket Analysis)とは
バスケット分析とはデータマイニンの手法の1つで、同じ買い物かご(バスケット)に入って購入された商品の共起性を導き出し、顧客の消費行動を分析する手法です。ここで言う共起性とは「ある物とある物は同時に購入される事が多い」と言うニュアンスで、レコメンデーションに用いられる事もあります。ただ同時に買われている物同士をレコメンドすればいい訳ではなくConfidence(信頼度)、Support(支持度)、Lift(リフト) と呼ばれる3つの指標を用い、総合的に評価されます。
データ
今回使用するデータは以下のようなあるスーパーマーケットにおける顧客(5人)ごとの商品購入履歴です。
Confidence(信頼度)
Xを買った人がYも買う確率(割合)を Confidence(信頼度) と言います。
$$
\dfrac{P(X\cap Y)}{P(X)}
$$
例えば「ビールに対するオムツの信頼度」は以下のようになります。
$$
\dfrac{P(Beer\cap Diaper)}{P(Beer)} = \dfrac{\dfrac{3}{5}}{\dfrac{4}{5}} = 0.75
$$
Support(支持度)
XとYを買った人と全体との確率(割合)を Support(支持度) と言います。Support(支持度)はそもそもXとYのコンビがどのくらい買われているのかを意味します。なかなか売れないXとYが、たまたま2、3回同時に買われた商品では信頼度が大きくなってしまうので、この指標でそれを解消します。
$$
\dfrac{P(X\cap Y)}{P(U)} \qquad *where \ P(U) = 1
$$
「ビールとオムツの支持度」は以下のようになります。
$$
\dfrac{P(Beer\cap Diaper)}{P(U)} = \dfrac{\dfrac{3}{5}}{1} = 0.6
$$
Lift(リフト)
Xから見たYの信頼度を、Yを買った人の割合で割った値を Lift(リフト) と言います。これは、もしYが元々売れ筋商品で、店にきた顧客のほとんどがYを買っていく傾向にある場合、XとYのレコメンデーションにアラートをかける事ができます。
$$
\dfrac{\dfrac{P(X\cap Y)}{P(X)}}{\dfrac{P(Y)}{P(U)}} \qquad *where \ P(U) = 1
$$
例えば天然水は5人中5人が買っています。この時、*ビールと天然水の信頼度と支持度は共に高い数値を残します。しかし、ビールを買った人に天然水をレコメンドするのは直感的にもおかしい事がわかります。そこで、このリフトを利用します。
*Note:
$$
信頼度= \dfrac{P(Beer\cap Water)}{P(Beer)} = \dfrac{\dfrac{4}{5}}{\dfrac{4}{5}} = 1 \\
支持度= \dfrac{P(Beer\cap Water)}{P(U)} = \dfrac{\dfrac{4}{5}}{1} = 0.8
$$
「ビールとオムツのリフト値」は以下のようになります。リフト値が1以上あるという事は十分にレコメンドする価値があるといえます。
$$
\dfrac{\dfrac{P(Beer\cap Diaper)}{P(Beer)}}{\dfrac{P(Diaper)}{P(U)}}
= \dfrac{\dfrac{(3/5)}{(4/5)}}{\dfrac{(3/5)}{(1)}} = 1.25
$$
方向性
共起性とは違い、リフトや信頼度を考える際に重要になってくるのが方向性です。レコメンデーションにはしばしば方向性が存在し、洗濯機を買った人に洗剤をレコメンドする事は良い作戦ですが、洗剤を買った人に洗濯機をレコメンドする事や、スマホケースを買った人にスマホを提案する事はナンセンスな事が多いです。
おわりに
データマイニングの手法の1つのマーケットバスケット分析についてまとめました。ちなみに、なぜビールとオムツがこんなのも相関があるデータを使ったかというと、マーケットバスケット分析の有名な事例から来ています。なぜビールとオムツに相関があるのか、 気になる方はこちらの記事をご覧ください。
参考文献