データ分析における「交絡因子」

Posted at 2024-05-21

データサイエンスもとい統計学においてその学問の醍醐味は因果関係を見つけて最適なモデルを作る事だと私は考えているのですが、そこには避けて通れないものとして「交絡因子」という考えがあります。

交絡因子とは

原因と結果の関係に影響を与え、真の関係と異なった観察結果をもたらす第三の因子の事を指します。

相関と因果

相関では因果関係は語れませんが、相関には2種類あります。

因果のある相関
因果のない相関

ここで因果のない相関を分析する際に偏相関係数を使い疑似相関についてを過去に計算して発生しているか考察する記事を書きました。

疑似相関では見かけ上の相関に対して第三の因子を考慮した偏相関係数を計算する事で考察しましたが、この言葉がまさしく交絡因子に似ている訳です。
例えばですが、有名な例で「アイスクリームの売上」と「溺死者数」は強い相関はありますが、当たり前ですが因果関係はありません。
それは「温度」という共通の因子がありこれによって見かけ上の相関が発生し、これが今回で言う交絡因子になります。
実際温度と溺死者数は温度が高ければ泳ぐ人が増えて因果があり、温度が上がればアイスを買う人も増えるという因果関係がありますね(自分は冬でも食べますけど)。
こんな感じで交絡因子が元々因果のない疑似相関に対して双方に因果のある相関をもたらすということがあります。

ボストン住宅価格のデータセットで見てみる

因果のない相関である疑似相関は裏を返せば因果関係がどっちかは分からずとも交絡因子を見つける事ができる状態である事が分かります。

相関係数を降順で表示する関数

import pandas as pd
def corr_sort(df):
    corr = df.corr().values
    dst = []
    for i in range(0, len(df.corr().columns)):
        for j in range(0, i):
            if i != j:
                dst.append([df.corr().columns[i], df.corr().columns[j], corr[i][j]])
    df_corr = pd.DataFrame(dst)
    df_corr.columns = ["因子1", "因子2", "相関係数"]
    return df_corr.sort_values("相関係数", ascending=False)

偏相関係数を算出する関数

import pandas as pd
import numpy as np
def pcorr(df):
    pcor = []
    corr = df.corr()
    columns = df.corr().columns
    for i in range(len(columns)):
        for j in range(i+1, len(columns)):
            for k in range(len(columns)):
                if columns[i] != columns[k] and columns[j] != columns[k]:
                    xy = corr.loc[columns[i], columns[j]]
                    yz = corr.loc[columns[j], columns[k]] 
                    zx = corr.loc[columns[k], columns[i]]
                    pc = (xy - yz * zx) / (np.sqrt(1-yz**2) * np.sqrt(1-zx**2))
                    pcor.append([columns[i], 
                                columns[j], 
                                columns[k], 
                                corr.loc[columns[i], columns[j]],
                                pc,
                                abs(corr.loc[columns[i], columns[j]]-pc)])
    df_pcor = pd.DataFrame(pcor)
    df_pcor.columns = ["因子1", "因子2", "第三の因子", "相関係数", "偏相関係数", "偏相関係数と相関係数の差"]
    return df_pcor.sort_values("偏相関係数と相関係数の差", ascending=False)

強い相関について着目

ここで目的変数との因果関係を考察するための最初の段階としてPRICEとの相関係数に着目します。

import pandas as pd

df = pd.read_csv("boston.csv")

df_corr = corr_sort(df)
df_corr[df_corr["因子2"]=="PRICE"]

ここで非常に強い相関が現れているのはRMとPTRATIOとLSTATになります。

次に交絡因子に着目するためPRICEに対してどうなっているかを見てみます。

df_pcorr = pcorr(df)
df_pcorr[df_pcorr["因子1"]=="PRICE"]

次にRMとPTRATIOとLSTATについて着目します。

df_pcorr[(df_pcorr["因子1"]=="PRICE") & (df_pcorr["因子2"]=="RM")]

df_pcorr[(df_pcorr["因子1"]=="PRICE") & (df_pcorr["因子2"]=="PTRATIO")]

df_pcorr[(df_pcorr["因子1"]=="PRICE") & (df_pcorr["因子2"]=="LSTAT")]

これらの数値を見てみると強い相関が若干弱い相関に変わるだけでこれといった交絡因子とは言えそうにないです。

弱い相関について着目

ちょっと思ったような交絡因子が見つからないので今度は弱い相関に着目してみようと思います。

df_pcorr[(df_pcorr["因子1"]=="PRICE") & (df_pcorr["因子2"]=="DIS")]

PRICEとDISは弱い相関ではありますが正の相関に元々なっていましたが、LSTATが交絡因子になって実際には弱い負の相関になっていることが分かります。
ここで、3つの相関係数に着目してみます。

pd.concat([df_corr[(df_corr["因子2"]=="PRICE") & (df_corr["因子1"]=="LSTAT")], df_corr[(df_corr["因子2"]=="PRICE") & (df_corr["因子1"]=="DIS")], df_corr[(df_corr["因子2"]=="DIS") & (df_corr["因子1"]=="LSTAT")]], axis=0)

この時、相関の関係性はこのようになっています。

つまりLSTATが今回交絡して相関の正負が変わった事が分かります。なのでDISとPRICEの関係性は正ではなく負だったという事です(これだけ小さいと誤差だけどね)。

疑似相関が一番現れている物を見つける

ここまで疑似相関と呼べるほどの物が無かったので説明変数で探します。

df_pcorr

目的変数以外で説明変数間だとINDUSとRADについてTAXが交絡因子で実際には負の相関になっている事が分かります。
つまりINDUSとRADは本来正の相関ではなく負の相関になっており、INDUSとTAXおよびTAXとRAD間で因果を考察していくのが妥当ではないかと考えます。

ここまでのまとめ

ボストン住宅価格のデータセットについて強い相関については偏相関係数も変わらず因果があると考えられ、弱い相関については正負は変わるが因果があると言えるほどの相関はない。
そもそも相関で因果は語れないけど。

交絡因子の制御方法

交絡はデータが集まってからは制御不可能になるためデータを集める段階や解析段階で制御する方法があります。

時期	制御方法	実際の制御	利点	欠点
計画段階	無作為割付無作為化	曝露・非曝露(介入・非介入)を無作為に割り付ける	既知の交絡因子だけでなく、未知の因子も制御できる	介入研究でしか用いる事が出来ない(コホート研究や症例対象研究では不可能)
	限定	交絡因子1つの状態のみを観察対象にする	・完全な制御ができる・容易で経費も掛からない・解析も容易	結果の一般かに問題が残る交絡因子の影響が残る事もある
	マッチング	2群で交絡因子の分布が等しくなるように対象者の設定を行う	・限定よりもサンプル数を大きくできるので精度の高い悔過が得られる・したがって観察研究では限定よりも良い方法とされる	限定と比較して経費が必要対象者の抽出が時に困難マッチした項目が危険因子と関連している場合に危険因子として観察されなくなることがある
解析段階	層化	交絡因子の相互と二階席を行う。あるいは層ごとの解析を統括する。	・前提が少なくて済む・直感的で理論的な方法。計算も比較的容易	・標本サイズの制限から制御できる交絡因子の数が限られる・数量データはカテゴリ化しないと層化できないので、この過程で情報の一部が失われる・交絡因子の相加方法が恣意的に行えるため、結果の解釈が困難になることもある
解析段階	数学的モデリング	多変量解析を用いて因子間の影響を除去する	・サンプル数が小さくても適用可能・個人のリスクの予想が可能・数量データをそのまま用いることができる・複数の因子を同時に制御できる	・モデルへ組み込むための前提がある・モデルの選択が難しい・結果の解釈が難しい

といった制御方法があります。
特に数学的モデルについてはなじみ深いので解析段階で対応するのが無難かもしれません。

まとめ

データそのものを色々疑ったり、データの集め方までデータ分析は非常に奥が深い学問だなあと思います。
あとScikit-Learnのトイデータはこういった交絡になる疑似相関がほとんど見られないため非常に優秀なデータだと思います。

参考文献

基礎から学ぶ楽しい疫学　第4版
【テックコラム】データ活用！相関関係と因果関係の違いと擬似相関について | DataCurrent
https://www.datacurrent.co.jp/column/correlation_causation20211109/

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up