非線形
統計的因果探索

お詫び

間に合わなかったので公開後にちょくちょく書き足すことにします…

モチベーション

相関関係は因果関係を意味しない。よって因果関係を発見するには相関関係のチェックとは別の手法が必要となる

そもそも因果関係とは

ここでの因果関係とはある変数の発展方程式に別の変数が寄与していることを指すものとする
$X(t+1) = a X(t) + bY (t)$
のようなモデルであればYがXに影響を与えるとみなしている
定式化すると
$X(t+1) = f (X(t),Y(t))$
ならばとりあえず因果と認める。
因果関係とは何かということについては科学哲学的な分野でそこそこ議論されていた話のようだ。
詳細な議論については
https://www.slideshare.net/JunOtsuka/2015-52074249
などが参考になる。

因果推定の手法あれこれ

統計的因果推定

因果推定といったときおそらくこれが本流の研究である。公衆衛生であったり、医学の分野においてある介入を行ったときそれが効果があるか?というのを統計的に判断する指針を与えるのが統計的因果推論という分野である。私も詳しくないので詳細は割愛する。
機械学習プロフェッショナルシリーズにも統計的因果探索なるものがある。これには著者の提案するLiNGAMという手法も紹介されており、最新の議論を追う上でも参考になる。

時系列因果推定

時系列データ間の因果推定は時間の不可逆性を利用して因果性の判断を行うので、上記に述べた手法とはやや異なる枠組みを採用する。

Granger Causality(Granger et al.,1969)

おそらく時系列データの因果関係の推定といったときに代表的な手法はこれであろう。
これのコアのアイデアとなるのはYがXから影響を受けているならば、Xの情報を使うことでYの予測精度が向上するはずであるというアイデアである。
Grangerの原論文はこのうち予測に対してVARモデルを用いてる。
VARモデルとは以下のような形で時系列予測を行うモデルである
$y_t = c + \phi_1 y_(t-1) + \ldots + \phi_py_(t-p) + \epsilon_t, \epsilon_t \sim W.N.(\Sigma)$
要するに次の時間の値は、p時間前までの値の線形な和+ノイズによって書くことができるというモデルである。
具体的なアルゴリズムとしては沖本(2010)pp.80などを参照するとよい。(http://tjo.hatenablog.com/entry/2013/07/30/191853などにも引用されている)
この枠組みを改良した手法は多く提案されておりtransfer entropy

しかしGranger Causalityがうまく行かないことがあるということを主張するのがConvergent Cross Mappingの立場である。そのためには以下のStarkの埋め込み定理が役に立つ。

Convergent Cross Mapping

この手法を提案したSugihara et al.(2012)は決定論的力学系においては、多変数からなるアトラクターと同窓写像で結ばれるアトラクターが一変数の情報から再構成できてしまうことを根拠に別の変数を用いたからといって予測精度がうまくいかない場合があるのではないかということを主張している。そして、$X\to Y$の関係がある時、むしろXの情報がYに蓄積されるので、Yを用いることでXを推定できると考える。
具体的なアルゴリズム(後で書く)
$X_t$を推定したい場合$Y_t$の遅れ座標から近傍E+1点を選んでくる($t_i$とインデックスすることにする)。距離に基づいて設定した$w_i$を用いて
$\tilde{X_t} = \sum_{i=1}^{E+1}W_i X_{t_i}$
と推定する。このようにして推定した$\tilde{X_t}$と$X_t$の相関をとってやることによって、正しく推定できているかを判定する
実装はそのうちGithubで公開します

このアルゴリズムをナイーブに実装すると計算量が$O(n^2\log{n})$となる気がしており、$n\sim10^3 $程度なので普通に重い。

CCMの発展手法について

  • 検定についてはサロゲートデータを用いる方法が中山(2015)に提案されている。因果関係を断ち切った時期列データを大量に生成することで、相関係数が優位に高くなっていることを示す。

Misc

  • ぶっちゃけ中山ら(2015)を読んだ方が良く理解できると思います。
  • ここら辺のトピックを幅広く扱った因果フェスというのがあったらしい。名前がかっこいい。

参考資料

沖本竜義. 経済・ファイナンスデータの計量時系列分析. 朝倉書店, 2010.
Granger, Clive WJ. "Investigating causal relations by econometric models and cross-spectral methods." Econometrica: Journal of the Econometric Society (1969): 424-438.
Sugihara, George, et al. "Detecting causality in complex ecosystems." science 338.6106 (2012): 496-500.