メモ&備忘録(ビジネス向け・初学者向け)
相関は“当たりを付ける道具”
仕事で相関を見る場面って、だいたいこうです。
- KPIに影響しそうな指標を候補出ししたい
- 似た指標が多いので、まとめる/間引く判断をしたい
- 監視で「いつも一緒に動くはず」が崩れたときに異常を見つけたい
相関は、原因を決めつける道具ではなく、次の打ち手のために「怪しいところ」を見つける道具です。
相関って何?(まず2つの誤解)
誤解1:相関が高い=原因がある
違います。
相関は「一緒に動きがち」を表すだけで、原因は別にあることがよくあります(季節、キャンペーン、在庫、価格改定…)。
誤解2:相関が0=関係がない
これも、いつもの相関(Pearson / Spearman)では言い切れないことがあります。
「0なら本当に関係がない」を目指す考え方もあり、そこが今日のポイントです。
まずはこれ:Pearson(いつもの相関)
Pearsonが向いているとき
- 2つの数字が だいたい直線っぽく増える/減るとき
例:広告費が増えるほど売上も増える(おおむね直線の範囲で)
Pearsonが苦手なとき
- 関係が曲線っぽい(U字、S字など)
- 一部の極端な値(外れ値)で結果が引っ張られやすい
結論:迷ったらPearsonでざっと見てOK。ただし「直線っぽいか?」を意識する。
順位で見る:Spearman(並び順が大事なとき)
Spearmanは、数値そのものより “順番” を重視します。
Spearmanが向いているとき
- 点数・ランキング・評価のように、順番が意味を持つとき
- きれいな直線じゃなくても、「だいたい増え続ける(減り続ける)」関係なら拾いやすい
例(ビジネスでよくある)
- 満足度(1〜5)と解約率
- レビュー評価とリピート率
- 納期遅延の回数とクレーム件数
結論:直線にこだわらず、順位で“増えがち/減りがち”を見たいならSpearman。
「関係がない」をもう少し真面目に:距離相関/XICOR
PearsonやSpearmanは便利ですが、 「相関0でも、関係が残る」 ことがあります。
そこで、「関係がないなら0になってほしい」を狙う指標があります。
ここでは、ビジネスでも“考え方”として押さえると強い2つだけ紹介します。
1) 距離相関(distance correlation)
ひとことで言うと、直線に限らず、いろんな形の関係を拾うための相関です。
「0なら本当に関係がない」を目指す代表格として挙げられます。
- 例:表示速度とCVR(速すぎても差が出ない、遅いと急に落ちる…みたいな曲線関係)
- 例:価格と購入率(ある価格帯までは鈍いが、閾値を超えると急に落ちる)
2) XICOR(Chatterjee の ξ)
ひとことで言うと、「関係がないなら0」「ほぼ決まりきった関係なら1」に寄せたい相関です。
特に刺さりやすいのは、ビジネスでよくある「ほぼ計算で決まってる」関係の検知です。
- 例:新しい指標を作ったら、実は既存列から“ほぼ計算で再現できる”=リークっぽい
- 例:ETLや集計の不具合で、ある列が別の列のコピーに近くなってしまった
結論:「曲線っぽい関係も拾いたい」なら距離相関。「ほぼ決まりきった関係」を疑うならXICOR。
どれを使う?3分チェックリスト
① 直線っぽい関係が欲しい?
- Yes → Pearson
- No / わからない → 2へ
② “順番”が大事?(評価・ランキング・段階)
- Yes → Spearman
- No → 3へ
③ 「関係がないなら0」をなるべく言いたい?
- Yes → 距離相関(いろんな形の関係)
- 「ほぼ決まりきった関係」を見つけたい → XICOR
ビジネスで事故りやすいポイント
-
相関が高い=打てば効く、ではない
施策判断に使うなら、因果(実験・準実験・設計)へつなぐ前提で。 -
時間差(ラグ)を無視しない
広告→売上、問い合わせ→解約、障害→解約は、同日より「数日後」に出ることが普通。 -
分けて見る(セグメント)
全体では0でも、チャネル別・地域別・新規/既存別で強いことがある。 -
相関の数字だけで結論を出さない
“一緒に動いている”背景説明がつかない相関は、意思決定に使うと危険。
まとめ
- 相関は「原因を断定する道具」ではなく、当たりを付ける道具
- まずは Pearson(直線っぽさ)
- 順位を見たいなら Spearman
- 「関係がないなら0」を狙うなら 距離相関や XICOR