協調フィルタリング推薦やバスケット分析で使われるアソシエーションルール/分析について調べました。主に著書「推薦システム実践入門」から学習しました。
購買履歴データから同時購入される商品組み合わせのルールを探索します。「おむつとビール」の話が有名ですが、真偽疑わしいようです。
また、真偽はともかく「おむつとビール症候群」という単語もあるようで注意が必要みたいです。
3つの指標
以下の3つの指標を使用します。
指標 | 内容 | 計算式 | 補足 |
---|---|---|---|
支持度(support) | アイテム出現割合 | $\cfrac{アイテム出現頻度}{全データ数}$ | |
確信度(confidence) | アイテム同時出現割合 | $\cfrac{複数アイテム同時出現頻度}{アイテム出現頻度}$ | |
リフト値(lift) | アイテム間出現相関 | $\cfrac{複数アイテム支持度}{支持度 \times 支持度}$ | 1だと相関ゼロ |
サンプルとして以下の購買履歴例で計算。
ユーザ/トランザクション | アイテムA | アイテムB | アイテムC |
---|---|---|---|
1 | 購入 | 購入 | |
2 | 購入 | ||
3 | 購入 | 購入 | |
4 | 購入 | 購入 |
支持度(support)
支持度(support)は全データでの出現頻度割合で以下の式です。
\cfrac{アイテム出現頻度}{全データ数}
サンプルデータでの例。簡単なので一部のみ。
対象 | 値 |
---|---|
A | $\frac{3}{4}$ |
B | $\frac{2}{4}$ |
A and B | $\frac{1}{4}$ |
B and C | $\frac{0}{4}$ |
確信度(confidence)
確信度(confidence)はアイテム同時出現割合で、方向性があります。アイテムA出現時のアイテムB出現割合だと、以下の式です。分母のAを条件部(antecedents)、Bを帰結部(consequents) と呼びます。条件部を購入した場合、帰結部をどれかけ購入するかの割合がわかります(プリンタ=>インクは高いけど逆)。
確信度(A => B) = \cfrac{アイテムA・B同時出現頻度}{アイテムA出現頻度}
サンプルデータでの例。0の場合は、条件部と帰結部入れ替えても当然0ですね。
対象 | 値 |
---|---|
A => B | $\frac{1}{3}$ |
B => A | $\frac{1}{2}$ |
C => A | $\frac{2}{2}$ |
A => C | $\frac{2}{3}$ |
B => C | $\frac{0}{2}$ |
C => B | $\frac{0}{2}$ |
リフト値(lift)
リフト値(lift)はアイテム間の相関です。アイテムAとBのリフト値は以下の式です。支持度の式から支持度と確信度の式に変形できます。
※A=>BとしていますがB=>Aも同じ値です(確信度と対称性の点で異なる)。
リフト(A=>B)=\cfrac{支持度A・B}{支持度A \times 支持度B}=
\cfrac{\frac{アイテムA・B同時出現頻度}{全データ数}}{\frac{アイテムA出現頻度}{全データ数} \times \frac{アイテムB出現頻度}{全データ数}} \\
= \cfrac{\frac{アイテムA・B同時出現頻度}{アイテムA出現頻度}}{\frac{アイテムB出現頻度}{全データ数}} = \cfrac{確信度(A => B)}{支持度B} \\
= \cfrac{\frac{アイテムA・B同時出現頻度}{アイテムB出現頻度}}{\frac{アイテムA出現頻度}{全データ数}} = \cfrac{確信度(B => A)}{支持度A} \\
値は以下の解釈です。支持度A・Bを同時購入率と考えます。
値 | 解釈 | 説明 |
---|---|---|
1以下 | 負の相関 | $支持度A \times 支持度B > 支持度A・B$で、同時購入されにくい |
1 | 独立 | $支持度A \times 支持度B = 支持度A・B$で、同時購入が偶然 |
1以上 | 正の相関 | $支持度A \times 支持度B < 支持度A・B$で、同時購入されやすい |
アイテムが3つ以上の場合は以下の式です。
リフト((A・B)=>C)=\cfrac{支持度A・B・C}{支持度A・B \times 支持度C}
サンプルデータで計算すると以下の値です。AとCは正の相関、BとCは負の相関です。
計算処理
アプリオリ
全件を計算すると計算量が多いので、アプリオリアルゴリズムにより高速化をします。一定以上の支持率のアイテム/アイテム組み合わせのみを計算対象とします(あまり調べていないので少し理解が怪しい)。
このリンク資料を起点に読み解けば効率的に理解できそうな気がしています。
Pythonとmlxtend
Pythonではmlxtendパッケージで計算できるようです。
サンプルを実行して理解しようとも思いましたが力尽きました。リンクを載せるだけにしておきます。