SCM
この記事では、SCM(構造的因果モデル)の別の見方を提示します。
SCM自体の説明はおこないません。
例
(この例は、Bernhard Schölkopf. Causality for Machine Learning. arXiv:1911.10500. から取っています。)
二つの変数$X,Y$だけを含む、次のような$X \to Y$というSCMを考えます。
\begin{align}
X & = U \\
Y & = f(X, V).
\end{align}
ただし、$U$と$V$は外生変数で、独立とします。
さらに、このSCMが、以下のようなものであるとします。
- $X$と$Y$は、${0,1}$の2値変数。
- $U$と$V$は、一様なベルヌーイ変数。
- $V$の値によって、関数$f$が$f(x) = x$となるか、$f(x) = 1 - x$となるかが決まる。
このSCMは、興味深い性質を持っています。
それは、観測データからは$X \to Y$という関係性を得られない、という性質です。
理由は次の通りです。
$X$は、$X=U$という式より、一様なベルヌーイ変数となりますが、
$Y$も一様なベルヌーイ変数となり、しかも$X$とは独立になります。
このように、$X$と$Y$が独立になってしまうので、これらの値のペアをいくら観測しても、
$X \to Y$という関係性を観測データから得ることはできません。
例の別の見方
上の例と全く同じSCMについて、別の見方を提示します。
$\Omega = \{a,b,c,d\}$について、$P(\{a\})=P(\{b\})=P(\{c\})=P(\{d\})=1/4$であるような確率空間$(\Omega, 2^\Omega, P)$を考えます。
$\{0,1\}$に値をとる確率変数$X$を、次のように定義します。
X(a)=0 \\
X(b)=0 \\
X(c)=1 \\
X(d)=1 \\
関数の集合$\{f_1, f_2\}$に値をとる確率変数$\xi$を、次のように定義します。
\xi(a)=f_1 \\
\xi(b)=f_2 \\
\xi(c)=f_1 \\
\xi(d)=f_2 \\
なお、$f_1(x) = x$、$f_2(x) = 1 - x$とします。
このとき、$X$と$\cal{F}$は独立となります。ひとつのケースについてだけ示すと、
P(\{\omega : X(\omega)=0\} \cap \{\omega : \xi (\omega)=f_1\}) = P(\{a\}) = 1/4 \\
P(\{\omega : X(\omega)=0\})P(\{\omega : \xi(\omega)=f_1\}) = P(\{a,b\})P(\{a,c\}) = 1/2 \cdot 1/2 = 1/4
となります。他の3つのケースについても同様です。
そして、確率変数$\xi$の値である関数を、$X$の値で評価した結果を$Y$とします。
このように$Y$を定義すると、以下の結果が得られます。
Y(a) = \xi_{X(a)}(a) = f_1(0) = 0 \\
Y(b) = \xi_{X(b)}(b) = f_2(0) = 1 \\
Y(c) = \xi_{X(c)}(c) = f_1(1) = 1 \\
Y(d) = \xi_{X(d)}(d) = f_2(1) = 0 \\
このとき、$X$と$Y$は独立となります。先ほどの例と同じ結果です。
おわりに
任意のSCMについて、上のように外生変数を無くしてしまい、
確率変数と確率過程(関数空間に値を取る確率変数)の言葉だけで書き直すことは、できるのでしょうか?
残念ながら、私にはこの問題に答えるための数学力がありません・・・。