user:
PCMCI+(時系列の因果探索)について、Pythonを使って詳細かつ厳密に教えてください。
assistant:
PCMCI+(時系列の因果探索)とは?
PCMCI+(Peter and Clark Momentary Conditional Independence Plus)は、時系列データに対する因果探索の手法であり、部分相関と機械学習ベースの条件付き独立性検定を用いて因果関係を推定します。
この手法は、Tuebingen大学のJakob Rungeらによって開発された「Tigramite」ライブラリに実装されており、PCMCIの拡張版として知られています。
1. PCMCIとPCMCI+の違い
PCMCI
- 時系列データに対して条件付き独立性検定を行い、因果関係を推定
- MCI(Momentary Conditional Independence)検定を使用
- 高次元データに対しても適用可能
PCMCI+
- PCMCIを拡張し、遅れ変数ごとの因果強度を推定
- 適応的なラグ選択が可能(PCMCIは固定ラグ)
- 非線形な因果関係にも対応
PythonによるPCMCI+の実装
1. インストール
まず、tigramiteをインストールします。
pip install tigramite
2. データの準備
tigramiteでは、DataFrameオブジェクトを使ってデータを管理します。
import numpy as np
import pandas as pd
from tigramite import data_processing as pp
# ダミーの時系列データを作成(5変数 × 1000サンプル)
np.random.seed(42)
data = np.random.randn(1000, 5)
# Tigramite の DataFrame に変換
var_names = ["X0", "X1", "X2", "X3", "X4"] # 変数名
dataframe = pp.DataFrame(data, var_names=var_names)
3. PCMCI+の実行
(1)PCMCI+の設定
次に、PCMCI+を実行します。ParCorr() を用いて、条件付き独立性検定に部分相関検定を使用します。
from tigramite.independence_tests import ParCorr
from tigramite.pcmci import PCMCIplus
# 条件付き独立性検定(部分相関)
parcorr = ParCorr(significance='analytic')
# PCMCI+ の初期化
pcmci_plus = PCMCIplus(
dataframe=dataframe,
cond_ind_test=parcorr,
verbosity=1 # 実行ログを出力
)
# 因果探索の実行(タイムラグ 1~5 を設定)
results = pcmci_plus.run_pcmci_plus(tau_min=1, tau_max=5)
4. 結果の解釈
PCMCI+の結果には、各時系列変数間の因果関係が含まれています。
(1)p値の取得
有意な因果関係を識別するために、p値を取得します。
# 各ラグごとの p 値
p_matrix = results["p_matrix"]
print(p_matrix)
(2)因果スコアの取得
因果関係の強さ(条件付き部分相関)を取得するには、以下を実行します。
# 各ラグごとの因果スコア(部分相関値)
val_matrix = results["val_matrix"]
print(val_matrix)
5. 可視化
因果関係をネットワークグラフで可視化します。
import matplotlib.pyplot as plt
from tigramite.plotting import plot_graph
# 因果グラフを描画
fig, ax = plt.subplots(figsize=(6, 6))
plot_graph(
val_matrix=results["val_matrix"],
sig_matrix=results["p_matrix"],
var_names=dataframe.var_names,
fontsize=12,
node_size=3000,
link_width=2,
link_strength=0.5,
ax=ax
)
plt.show()
まとめ
PCMCI+は、時系列データの因果関係を高精度に推定できる強力な手法です。
-
tigramiteを用いることで、適応的なラグ選択や非線形関係の検出が可能 -
ParCorr()だけでなく、ランダムフォレストなどの非線形手法にも対応
実際のデータに適用する場合は、ドメイン知識を活かして適切なラグ範囲や独立性検定を選択することが重要です。
user:
ありがとうございます。次のようなエラーになりました。
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
<ipython-input-3-f3a98e3e1360> in <cell line: 0>()
----> 1 from tigramite.independence_tests import ParCorr
2 from tigramite.pcmci import PCMCIplus
3
4 # 条件付き独立性検定(部分相関)
5 parcorr = ParCorr(significance='analytic')
ImportError: cannot import name 'ParCorr' from 'tigramite.independence_tests' (/usr/local/lib/python3.11/dist-packages/tigramite/independence_tests/__init__.py)
user:
エラーの原因として、以下の可能性が考えられます。
原因1: tigramite のバージョンが古い
ParCorr が tigramite.independence_tests からインポートできないのは、ライブラリのバージョンが適切でない可能性があります。
最新版をインストールして、エラーが解消されるか確認してください。
pip install --upgrade tigramite
その後、以下のコードを試して tigramite のバージョンを確認してください。
import tigramite
print(tigramite.__version__)
ParCorr が利用可能なバージョン (>=5.0.0) になっているかを確認してください。
原因2: インポートの方法が異なる
最新バージョンの tigramite では、ParCorr は independence_tests ではなく tigramite.independence_tests.ParCorr にあります。
以下のようにインポートしてください。
from tigramite.independence_tests.ParCorr import ParCorr
または、次のようにインポートを試すこともできます。
from tigramite.independence_tests import parcorr
parcorr = parcorr.ParCorr(significance='analytic')
原因3: tigramite の正しいパスにインストールされていない
もし pip install --upgrade tigramite で解決しない場合は、一度 tigramite をアンインストールし、再インストールしてみてください。
pip uninstall tigramite
pip install tigramite
その後、Python を再起動し、再度スクリプトを実行してください。
まとめ
-
pip install --upgrade tigramiteを実行 -
tigramite.__version__を確認(5.0.0 以上推奨) -
from tigramite.independence_tests.ParCorr import ParCorrでインポートを試す - うまくいかなければ、
tigramiteを再インストール
試してみて、どの方法で解決したか教えてください!
user:
原因1について、次のような結果を確認しました。
Requirement already satisfied: tigramite in /usr/local/lib/python3.11/dist-packages (5.2.7.0)
Requirement already satisfied: numpy>=1.18 in /usr/local/lib/python3.11/dist-packages (from tigramite) (2.0.2)
Requirement already satisfied: scipy>=1.10.0 in /usr/local/lib/python3.11/dist-packages (from tigramite) (1.14.1)
Requirement already satisfied: six in /usr/local/lib/python3.11/dist-packages (from tigramite) (1.17.0)
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-5-46c5fec4bca1> in <cell line: 0>()
1 import tigramite
----> 2 print(tigramite.__version__)
AttributeError: module 'tigramite' has no attribute '__version__'
assistant:
tigramite のバージョンを確認する方法が異なるようです。以下の方法を試してください。
import tigramite
print(tigramite.__path__) # インストール場所を確認
print(tigramite.__file__) # ファイルパスを確認
また、バージョンを確認するために次のコードも試してください。
import importlib.metadata
print(importlib.metadata.version("tigramite"))
この結果を教えてもらえますか?
user:
次のような結果を確認しました。
['/usr/local/lib/python3.11/dist-packages/tigramite']
/usr/local/lib/python3.11/dist-packages/tigramite/__init__.py
5.2.7.0
assistant:
tigramite のバージョンは 5.2.7.0 なので、最新版がインストールされているようですね。
しかし、それでも ParCorr のインポートエラーが出るのは モジュール構造が変更された可能性 があります。
試すべきこと
① dir() で tigramite.independence_tests の内容を確認
次のコードを実行して、independence_tests に ParCorr が存在するかを確認してください。
import tigramite.independence_tests
print(dir(tigramite.independence_tests))
このリストの中に "ParCorr" が含まれているかどうか確認してください。
② help() を使って ParCorr の定義を探す
次のコマンドで ParCorr の定義がどこにあるのか確認します。
help(tigramite.independence_tests)
この出力に ParCorr に関する情報が含まれていれば、正しいインポート方法が見つかる 可能性があります。
③ tigramite.independence_tests.ParCorr を直接確認
次のコードを実行して、モジュールの内部を直接調査してみてください。
from tigramite.independence_tests import ParCorr
print(ParCorr)
または、
import tigramite.independence_tests
print(hasattr(tigramite.independence_tests, "ParCorr"))
結果を教えてください!
-
"ParCorr"がdir()の出力にあるか? -
help()の出力にParCorrの情報があるか? -
hasattr()の出力がTrueかFalseか?
これらの結果をもとに、適切な解決策を考えます!
user:
ありがとうございます。4つチェック項目を教えていただきましたので、順に結果をお示ししますね。
['__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__path__', '__spec__']
Help on package tigramite.independence_tests in tigramite:
NAME
tigramite.independence_tests
PACKAGE CONTENTS
LBFGS
cmiknn
cmiknn_mixed
cmisymb
gpdc
gpdc_torch
gsquared
independence_tests_base
oracle_conditional_independence
pairwise_CI
parcorr
parcorr_mult
parcorr_wls
regressionCI
robust_parcorr
FILE
/usr/local/lib/python3.11/dist-packages/tigramite/independence_tests/__init__.py
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
<ipython-input-10-1082b2d5b35a> in <cell line: 0>()
----> 1 from tigramite.independence_tests import ParCorr
2 print(ParCorr)
ImportError: cannot import name 'ParCorr' from 'tigramite.independence_tests' (/usr/local/lib/python3.11/dist-packages/tigramite/independence_tests/__init__.py)
False
assistant:
結果をありがとうございます! dir(tigramite.independence_tests) の出力を見ると、ParCorr がリストに 含まれていない ことがわかりますね。
しかし、parcorr というモジュールは help(tigramite.independence_tests) の出力に存在しています。
解決策
ParCorr は直接 tigramite.independence_tests からインポートするのではなく、 parcorr モジュール内にある可能性があります。
次のように parcorr から ParCorr をインポートしてみてください。
from tigramite.independence_tests.parcorr import ParCorr
背景
tigramite のバージョン 5.x 以降では、因果探索の統計手法が tigramite.independence_tests 内の個別のモジュールに分離されました。
そのため、ParCorr も parcorr モジュール内に格納されるようになった可能性があります。
次のステップ
-
上記の修正を試してエラーが解消するか確認
-
もし
ImportErrorが発生したら、次のコードでparcorrの中身を確認import tigramite.independence_tests.parcorr print(dir(tigramite.independence_tests.parcorr))これで
ParCorrが含まれているかどうかチェックしてください。
試してみて、結果を教えてください!
user:
ありがとうございます。
from tigramite.independence_tests.parcorr import ParCorr
でうまくいったようです。
['CondIndTest', 'ParCorr', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', 'np', 'print_function', 'stats', 'sys', 'warnings']
assistant:
うまくいったようでよかったです! 🎉
tigramite.independence_tests.parcorr モジュール内に ParCorr が存在していることも確認できましたね。
今後も tigramite を使って因果探索を進める際に、もしまた疑問が出てきたら気軽に聞いてください!
PCMCI+ や他の手法についても、さらに詳しく解説できますよ。💡
user:
では、あらためて次のコードを実行してみました。
# from tigramite.independence_tests import ParCorr
from tigramite.independence_tests.parcorr import ParCorr
from tigramite.pcmci import PCMCIplus
# 条件付き独立性検定(部分相関)
parcorr = ParCorr(significance='analytic')
# PCMCI+ の初期化
pcmci_plus = PCMCIplus(
dataframe=dataframe,
cond_ind_test=parcorr,
verbosity=1 # 実行ログを出力
)
# 因果探索の実行(タイムラグ 1~5 を設定)
results = pcmci_plus.run_pcmci_plus(tau_min=1, tau_max=5)
すると次のエラーになりました。
---------------------------------------------------------------------------
ImportError Traceback (most recent call last)
<ipython-input-14-bf2c88d85b09> in <cell line: 0>()
1 # from tigramite.independence_tests import ParCorr
2 from tigramite.independence_tests.parcorr import ParCorr
----> 3 from tigramite.pcmci import PCMCIplus
4
5 # 条件付き独立性検定(部分相関)
ImportError: cannot import name 'PCMCIplus' from 'tigramite.pcmci' (/usr/local/lib/python3.11/dist-packages/tigramite/pcmci.py)
assistant:
また別の ImportError ですね…。
PCMCIplus が tigramite.pcmci からインポートできないということは、
tigramite のバージョン 5.x 以降で モジュール構成が変わった可能性 があります。
解決策
① PCMCIplus の場所を確認
まず、PCMCIplus がどこにあるのか調べます。次のコードを実行してください。
import tigramite.pcmci
print(dir(tigramite.pcmci))
この出力の中に "PCMCIplus" が含まれているか確認してください。
② PCMCIplus を含むモジュールを特定
次のコードを実行して、PCMCIplus のある場所を特定します。
import tigramite
help(tigramite.pcmci)
出力の中に PCMCIplus の説明があるか探してください。
もし PCMCIplus が見つからない場合、tigramite の 別のモジュール に移動された可能性があります。
③ pcmci_plus モジュールからインポート
tigramite の最新版では PCMCIplus は tigramite.pcmci.pcmci_plus に移動されているかもしれません。
次のコードを試してください。
from tigramite.pcmci.pcmci_plus import PCMCIplus
もしこれで解決したら、やはり tigramite のモジュール構造が変わっていたことになります。
次のステップ
- ①と②の結果を教えてください(
dir()とhelp()の出力にPCMCIplusがあるかどうか)。 - ③の
from tigramite.pcmci.pcmci_plus import PCMCIplusが成功するか試してみてください。
また ImportError が出たら、エラーメッセージも教えてもらえれば対応します!
user:
help() の出力に PCMCIplusがありました。長すぎるので抜粋すると
| print_significant_links(self, p_matrix, val_matrix, conf_matrix=None, graph=None, ambiguous_triples=None, alpha_level=0.05)
| Prints significant links.
|
| Used for output of PCMCI and PCMCIplus. For the latter also information
| on ambiguous links and conflicts is returned.
|
| Parameters
| ----------
| alpha_level : float, optional (default: 0.05)
| Significance level.
| p_matrix : array-like
| Must be of shape (N, N, tau_max + 1).
| val_matrix : array-like
| Must be of shape (N, N, tau_max + 1).
| conf_matrix : array-like, optional (default: None)
| Matrix of confidence intervals of shape (N, N, tau_max+1, 2).
| graph : array-like
| Must be of shape (N, N, tau_max + 1).
| ambiguous_triples : list
| List of ambiguous triples.
| run_pcalg(self, selected_links=None, link_assumptions=None, pc_alpha=0.01, tau_min=0, tau_max=1, max_conds_dim=None, max_combinations=None, lagged_parents=None, max_conds_py=None, max_conds_px=None, max_conds_px_lagged=None, mode='standard', contemp_collider_rule='majority', conflict_resolution=True)
| Runs PC algorithm for time-lagged and contemporaneous causal
| discovery for time series.
|
| For ``mode='contemp_conds'`` this implements Steps 2-4 of the
| PCMCIplus method described in [5]. For ``mode='standard'`` this
| implements the standard PC algorithm adapted to time series.
|
| [5] J. Runge, Discovering contemporaneous and lagged causal relations
| in autocorrelated nonlinear time series datasets
| http://www.auai.org/~w-auai/uai2020/proceedings/579_main_paper.pdf
|
| Parameters
| ----------
| selected_links : dict or None
| Deprecated, replaced by link_assumptions
| link_assumptions : dict
| Dictionary of form {j:{(i, -tau): link_type, ...}, ...} specifying
| assumptions about links. This initializes the graph with entries
| graph[i,j,tau] = link_type. For example, graph[i,j,0] = '-->'
| implies that a directed link from i to j at lag 0 must exist.
| Valid link types are 'o-o', '-->', '<--'. In addition, the middle
| mark can be '?' instead of '-'. Then '-?>' implies that this link
| may not exist, but if it exists, its orientation is '-->'. Link
| assumptions need to be consistent, i.e., graph[i,j,0] = '-->'
| requires graph[j,i,0] = '<--' and acyclicity must hold. If a link
| does not appear in the dictionary, it is assumed absent. That is,
| if link_assumptions is not None, then all links have to be specified
| or the links are assumed absent.
| lagged_parents : dictionary
| Dictionary of form {0:[(0, -1), (3, -2), ...], 1:[], ...} containing
| additional conditions for each CI test. As part of PCMCIplus
| these are the superset of lagged parents estimated with the PC1
| algorithm.
| mode : {'standard', 'contemp_conds'}
| For ``mode='contemp_conds'`` this implements Steps 2-4 of the
| PCMCIplus method. For ``mode='standard'`` this implements the
| standard PC algorithm adapted to time series.
| tau_min : int, optional (default: 0)
| Minimum time lag to test.
| tau_max : int, optional (default: 1)
| Maximum time lag. Must be larger or equal to tau_min.
| pc_alpha : float, optional (default: 0.01)
| Significance level.
| contemp_collider_rule : {'majority', 'conservative', 'none'}
| Rule for collider phase to use. See the paper for details. Only
| 'majority' and 'conservative' lead to an order-independent
| algorithm.
| conflict_resolution : bool, optional (default: True)
| Whether to mark conflicts in orientation rules. Only for True
| this leads to an order-independent algorithm.
| max_conds_dim : int, optional (default: None)
| Maximum number of conditions to test. If None is passed, this number
| is unrestricted.
| max_combinations : int
| Maximum number of combinations of conditions of current cardinality
| to test. Must be infinite (default for max_combinations=1) for consistency.
| max_conds_py : int, optional (default: None)
| Maximum number of lagged conditions of Y to use in MCI tests. If
| None is passed, this number is unrestricted.
| max_conds_px : int, optional (default: None)
| Maximum number of lagged conditions of X to use in MCI tests. If
| None is passed, this number is unrestricted.
| max_conds_px_lagged : int, optional (default: None)
| Maximum number of lagged conditions of X when X is lagged in MCI
| tests. If None is passed, this number is equal to max_conds_px.
|
| Returns
| -------
| graph : array of shape [N, N, tau_max+1]
| Resulting causal graph, see description above for interpretation.
| val_matrix : array of shape [N, N, tau_max+1]
| Estimated matrix of test statistic values regarding adjacencies.
| p_matrix : array of shape [N, N, tau_max+1]
| Estimated matrix of p-values regarding adjacencies.
| sepsets : dictionary
| Separating sets. See paper for details.
| ambiguous_triples : list
| List of ambiguous triples, only relevant for 'majority' and
| 'conservative' rules, see paper for details.
|
| run_pcmciplus(self, selected_links=None, link_assumptions=None, tau_min=0, tau_max=1, pc_alpha=0.01, contemp_collider_rule='majority', conflict_resolution=True, reset_lagged_links=False, max_conds_dim=None, max_combinations=1, max_conds_py=None, max_conds_px=None, max_conds_px_lagged=None, fdr_method='none')
| Runs PCMCIplus time-lagged and contemporaneous causal discovery for
| time series.
|
| Method described in [5]:
| http://www.auai.org/~w-auai/uai2020/proceedings/579_main_paper.pdf
|
| [5] J. Runge, Discovering contemporaneous and lagged causal relations
| in autocorrelated nonlinear time series datasets
| http://www.auai.org/~w-auai/uai2020/proceedings/579_main_paper.pdf
|
| Notes
| -----
|
| The PCMCIplus causal discovery method is described in [5], where
| also analytical and numerical results are presented. In contrast to
| PCMCI, PCMCIplus can identify the full, lagged and contemporaneous,
| causal graph (up to the Markov equivalence class for contemporaneous
| links) under the standard assumptions of Causal Sufficiency,
| Faithfulness and the Markov condition.
|
| PCMCIplus estimates time-lagged and contemporaneous causal links by a
| four-step procedure:
|
| 1. Condition-selection (same as for PCMCI): For each variable
| :math:`j`, estimate a *superset* of lagged parents :math:`\widehat{
| \mathcal{B}}_t^-( X^j_t)` with the iterative PC1 algorithm,
| implemented as ``run_pc_stable``. The condition-selection step
| reduces the dimensionality and avoids conditioning on irrelevant
| variables.
|
| 2. PC skeleton phase with contemporaneous conditions and *Momentary
| conditional independence* (MCI) tests: Iterate through subsets
| :math:`\mathcal{S}` of contemporaneous adjacencies and conduct MCI
| conditional independence tests:
|
| .. math:: X^i_{t-\tau} ~\perp~ X^j_{t} ~|~ \mathcal{S},
| \widehat{\mathcal{B}}_t^-(X^j_t),
| \widehat{\mathcal{B}}_{t-\tau}^-(X^i_{t-{\tau}})
|
| here implemented as ``run_pcalg``. This step estimates the p-values and
| test statistic values for all lagged and contemporaneous adjacencies
| accounting for common drivers, indirect links, and autocorrelation.
|
| 3. PC collider orientation phase: Orient contemporaneous collider
| motifs based on unshielded triples. Optionally apply conservative or
| majority rule (also based on MCI tests).
|
| 4. PC rule orientation phase: Orient remaining contemporaneous
| links based on PC rules.
|
| In contrast to PCMCI, the relevant output of PCMCIplus is the
| array ``graph``. Its string entries are interpreted as follows:
|
| * ``graph[i,j,tau]=-->`` for :math:`\tau>0` denotes a directed, lagged
| causal link from :math:`i` to :math:`j` at lag :math:`\tau`
|
| * ``graph[i,j,0]=-->`` (and ``graph[j,i,0]=<--``) denotes a directed,
| contemporaneous causal link from :math:`i` to :math:`j`
|
| * ``graph[i,j,0]=o-o`` (and ``graph[j,i,0]=o-o``) denotes an unoriented,
| contemporaneous adjacency between :math:`i` and :math:`j` indicating
| that the collider and orientation rules could not be applied (Markov
| equivalence)
|
| * ``graph[i,j,0]=x-x`` and (``graph[j,i,0]=x-x``) denotes a conflicting,
| contemporaneous adjacency between :math:`i` and :math:`j` indicating
| that the directionality is undecided due to conflicting orientation
| rules
|
| Importantly, ``p_matrix`` and ``val_matrix`` for PCMCIplus quantify
| the uncertainty and strength, respectively, only for the
| adjacencies, but not for the directionality of contemporaneous links.
| Note that lagged links are always oriented due to time order.
|
| PCMCIplus can be flexibly combined with any kind of conditional
| independence test statistic adapted to the kind of data (continuous
| or discrete) and its assumed dependency types. These are available in
| ``tigramite.independence_tests``.
|
| The main free parameters of PCMCIplus (in addition to free parameters of
| the conditional independence tests) are the maximum time delay
| :math:`\tau_{\max}` (``tau_max``) and the significance threshold
| :math:`\alpha` ( ``pc_alpha``).
|
| If a list or None is passed for ``pc_alpha``, the significance level is
| optimized for every graph across the given ``pc_alpha`` values using the
| score computed in ``cond_ind_test.get_model_selection_criterion()``.
| Since PCMCIplus outputs not a DAG, but an equivalence class of DAGs,
| first one member of this class is computed and then the score is
| computed as the average over all models fits for each variable in ``[0,
| ..., N]`` for that member. The score is the same for all members of the
| class.
|
| The maximum time delay depends on the application and should be chosen
| according to the maximum causal time lag expected in the complex system.
| We recommend a rather large choice that includes peaks in the
| ``get_lagged_dependencies`` function. Another important parameter is
| ``contemp_collider_rule``. Only if set to ``majority`` or
| ``conservative'' and together with ``conflict_resolution=True``,
| PCMCIplus is fully *order independent* meaning that the order of the N
| variables in the dataframe does not matter. Last, the default option
| ``reset_lagged_links=False`` restricts the detection of lagged causal
| links in Step 2 to the significant adjacencies found in Step 1, given by
| :math:`\widehat{ \mathcal{B}}_t^-( X^j_t)`. For
| ``reset_lagged_links=True``, *all* lagged links are considered again,
| which improves detection power for lagged links, but also leads to
| larger runtimes.
|
| Further optional parameters are discussed in [5].
|
| Parameters
| ----------
| selected_links : dict or None
| Deprecated, replaced by link_assumptions
| link_assumptions : dict
| Dictionary of form {j:{(i, -tau): link_type, ...}, ...} specifying
| assumptions about links. This initializes the graph with entries
| graph[i,j,tau] = link_type. For example, graph[i,j,0] = '-->'
| implies that a directed link from i to j at lag 0 must exist.
| Valid link types are 'o-o', '-->', '<--'. In addition, the middle
| mark can be '?' instead of '-'. Then '-?>' implies that this link
| may not exist, but if it exists, its orientation is '-->'. Link
| assumptions need to be consistent, i.e., graph[i,j,0] = '-->'
| requires graph[j,i,0] = '<--' and acyclicity must hold. If a link
| does not appear in the dictionary, it is assumed absent. That is,
| if link_assumptions is not None, then all links have to be specified
| or the links are assumed absent.
| tau_min : int, optional (default: 0)
| Minimum time lag to test.
| tau_max : int, optional (default: 1)
| Maximum time lag. Must be larger or equal to tau_min.
| pc_alpha : float or list of floats, default: 0.01
| Significance level in algorithm. If a list or None is passed, the
| pc_alpha level is optimized for every graph across the given
| pc_alpha values ([0.001, 0.005, 0.01, 0.025, 0.05] for None) using
| the score computed in cond_ind_test.get_model_selection_criterion().
| contemp_collider_rule : {'majority', 'conservative', 'none'}
| Rule for collider phase to use. See the paper for details. Only
| 'majority' and 'conservative' lead to an order-independent
| algorithm.
| conflict_resolution : bool, optional (default: True)
| Whether to mark conflicts in orientation rules. Only for True
| this leads to an order-independent algorithm.
| reset_lagged_links : bool, optional (default: False)
| Restricts the detection of lagged causal links in Step 2 to the
| significant adjacencies found in the PC1 algorithm in Step 1. For
| True, *all* lagged links are considered again, which improves
| detection power for lagged links, but also leads to larger
| runtimes.
| max_conds_dim : int, optional (default: None)
| Maximum number of conditions to test. If None is passed, this number
| is unrestricted.
| max_combinations : int, optional (default: 1)
| Maximum number of combinations of conditions of current cardinality
| to test in PC1 step.
| max_conds_py : int, optional (default: None)
| Maximum number of lagged conditions of Y to use in MCI tests. If
| None is passed, this number is unrestricted.
| max_conds_px : int, optional (default: None)
| Maximum number of lagged conditions of X to use in MCI tests. If
| None is passed, this number is unrestricted.
| max_conds_px_lagged : int, optional (default: None)
| Maximum number of lagged conditions of X when X is lagged in MCI
| tests. If None is passed, this number is equal to max_conds_px.
| fdr_method : str, optional (default: 'none')
| Correction method, default is Benjamini-Hochberg False Discovery
| Rate method.
|
| Returns
| -------
| graph : array of shape [N, N, tau_max+1]
| Resulting causal graph, see description above for interpretation.
| val_matrix : array of shape [N, N, tau_max+1]
| Estimated matrix of test statistic values regarding adjacencies.
| p_matrix : array of shape [N, N, tau_max+1]
| Estimated matrix of p-values regarding adjacencies.
| sepsets : dictionary
| Separating sets. See paper for details.
| ambiguous_triples : list
| List of ambiguous triples, only relevant for 'majority' and
| 'conservative' rules, see paper for details.
|
assistant:
PCMCIplus は、時系列データの因果探索のための手法ですね。tigramite ライブラリの PCMCIplus クラスには、以下のような主要なメソッドがあります:
-
run_pcmciplus- PCMCIplus アルゴリズムを実行し、時系列データに対するラグ付きおよび同時因果関係を推定する。
- ステップ1でPC1アルゴリズムを使ってラグ付きの因果候補を抽出し、ステップ2以降で
PCアルゴリズムを用いた同時因果関係の推定を行う。 - 出力は、因果グラフ(
graph)、p値行列(p_matrix)、統計量行列(val_matrix)など。
-
run_pcalg- PCアルゴリズムを用いた因果探索を実行。
-
mode="standard"では通常のPCアルゴリズム、mode="contemp_conds"ではPCMCIplusの一部として利用。 - こちらも因果グラフやp値行列などを出力。
-
print_significant_links-
p_matrix(p値)、val_matrix(統計量)、graphなどの情報から、統計的に有意な因果リンクを出力。
-
run_pcmciplus の出力する graph の値について:
-
"-->"(graph[i, j, tau] = "-->"):iからjへの因果関係(tau > 0ならラグ付き) -
"o-o": 未確定の因果関係(マルコフ同値類の影響) -
"x-x": 因果関係の向きが決定できない(推定規則の矛盾)
このあたりを把握しておくと、出力結果の解釈がしやすくなると思います。試してみたい具体的なデータセットなどありますか?
user:
ありがとうございます。では、その知見に基づいて次のコードを書き換えてください。
# from tigramite.independence_tests import ParCorr
from tigramite.independence_tests.parcorr import ParCorr
from tigramite.pcmci import PCMCIplus
# 条件付き独立性検定(部分相関)
parcorr = ParCorr(significance='analytic')
# PCMCI+ の初期化
pcmci_plus = PCMCIplus(
dataframe=dataframe,
cond_ind_test=parcorr,
verbosity=1 # 実行ログを出力
)
# 因果探索の実行(タイムラグ 1~5 を設定)
results = pcmci_plus.run_pcmci_plus(tau_min=1, tau_max=5)
assistant:
以下の点を考慮して、コードを改善しました。
-
ParCorrのインポートの最適化
tigramite.independence_tests.parcorrではなく、tigramite.independence_testsから直接ParCorrをインポート。 -
PCMCIplusのインポートの最適化
tigramite.pcmciからPCMCIplusをインポートする際に、ParCorrと同様のフォーマットに統一。 -
コードの可読性向上
-
ParCorrのsignificanceパラメータを明示的に設定。 -
PCMCIplusの初期化時にコメントを整理。
-
改善後のコード:
from tigramite.independence_tests import ParCorr
from tigramite.pcmci import PCMCIplus
# 条件付き独立性検定(部分相関)
parcorr = ParCorr(significance='analytic')
# PCMCI+ の初期化(verbosity を適宜変更可能)
pcmci_plus = PCMCIplus(
dataframe=dataframe, # 使用するデータフレーム
cond_ind_test=parcorr, # 条件付き独立性検定
verbosity=1 # 実行ログの詳細度(0: 非表示, 1: 標準, 2: 詳細)
)
# 因果探索の実行(タイムラグ 1~5)
results = pcmci_plus.run_pcmci_plus(tau_min=1, tau_max=5)
このようにすることで、インポートの冗長性を減らし、コードの可読性と管理のしやすさを向上させました。
user:
ありがとうございました。今回の議論をブログに記録したいので、タイトル案をいくつか考えていただけますか?
assistant:
もちろんです。今回の内容(TigramiteのPCMCI+、ParCorrによる因果探索、コードの書き方の改善など)に基づいて、ブログ記事のタイトル案をいくつかご提案します:
📌 テクニカル・実用寄りのタイトル案
- Tigramiteで始める因果探索:PCMCI+とParCorrの実践ガイド
- 時系列データに因果のメスを入れる:Python × PCMCI+ 超入門
- Tigramite PCMCI+ による時系列因果推論の最前線
- Pythonで因果探索:PCMCI+と部分相関の活用例
- 因果推論×時系列:TigramiteによるPCMCI+実装メモ
🧠 少しキャッチー or 読みやすさ重視のタイトル案
- 「因果関係ありますか?」に答えるTigramiteの使い方
- 時系列データから因果を引き出す:PCMCI+でやってみた
- 因果探索の第一歩:TigramiteとPythonで始める実践編
- ブラックボックスにしない因果推論:コードから理解するPCMCI+
- 時系列の裏に潜む因果を暴け:Tigramite×Pythonで挑戦する
✍️ ドキュメント風・備忘録スタイルのタイトル案
- PCMCI+ 実装メモ:Tigramiteを使った時系列因果探索ログ
- [備忘録] Python×TigramiteでPCMCI+を試すまでの手順
- Tigramiteで因果探索:ParCorrとPCMCI+の設定まとめ
- 時系列因果分析 with Tigramite:コードと理論のメモ
- Tigramiteによる因果推論プロセスの整理と実装ノート
気に入った方向性があれば、そこから絞ってサブタイトルの提案や本文構成のアドバイスもできます。
user:
「時系列データから因果を引き出す:PCMCI+でやってみた」で行こうと思います。最後に、今回のまとめを詳しく書いてください。
assistant:
いいタイトルですね!では「時系列データから因果を引き出す:PCMCI+でやってみた」にふさわしい、今回のまとめを以下に詳しく記述します。
📝 まとめ:時系列データから因果を引き出す―PCMCI+でやってみた
今回のブログでは、Tigramite パッケージを使って時系列データから因果関係を探索する方法を紹介しました。具体的には、PCMCI+(Peter and Clark Momentary Conditional Independence Plus) アルゴリズムと、ParCorr(部分相関) による条件付き独立性検定を組み合わせた実践的な手法に焦点を当てました。
📌 使用した主な手法とライブラリ
-
Tigramite:時系列データの因果構造推定ライブラリ。DAGベースの探索に強く、因果関係を時間遅れ(ラグ)付きで推定可能。
-
PCMCI+(PCMCIplus):
- 通常のPCMCIに比べ、スパースな条件集合での条件付き独立性検定をサポート。
- 偽陽性を抑えつつ、検出力の高い因果探索が可能。
-
ParCorr(Partial Correlation):連続値変数に対して有効な条件付き独立性検定手法。
-
significance='analytic'の設定により、解析的にp値を計算。
-
✅ 実装のポイント
# ParCorr のインポート方法(最新版の仕様に対応)
from tigramite.independence_tests.parcorr import ParCorr
# PCMCI+ のインポート
from tigramite.pcmci import PCMCIplus
# ParCorrの初期化(解析的なp値計算を使用)
parcorr = ParCorr(significance='analytic')
# PCMCI+ インスタンスの生成
pcmci_plus = PCMCIplus(
dataframe=dataframe, # タイムラグ付きデータ(DataFrame object)
cond_ind_test=parcorr, # 条件付き独立性検定器
verbosity=1 # ログの出力レベル(1は標準)
)
# ラグ1〜5までで因果探索を実行
results = pcmci_plus.run_pcmci_plus(tau_min=1, tau_max=5)
-
dataframeはtigramite.data_processing.DataFrame型である必要があります。 -
tau_minやtau_maxを変えることで、短期〜長期の因果関係を探索できます。 - 結果は
.val_matrixや.p_matrixなどに格納され、さらに可視化ツール(plot_graph())などと組み合わせて因果グラフを描くことも可能です。
🧠 実行上の注意点とベストプラクティス
-
PCMCIplusはcond_ind_testに適した検定器が必要です。ParCorrのような連続値変数用のものと、カテゴリカルデータ用(例:GCM)などは用途が異なります。 - データは標準化されていると検定精度が向上することがあります(ParCorr使用時は特に)。
-
verbosity=1にすると進行状況が見えるのでデバッグが楽になります。 -
run_pcmci_plus()実行前に、データが欠損していないか、型が正しいかなどをチェックするのが安全です。
🔚 おわりに
因果探索というと難解なイメージがありますが、TigramiteとPCMCI+ を使えば、比較的シンプルなコードで強力な分析が可能です。特に時系列データにおける変数間の因果的つながりを知りたい場面(経済、気象、脳科学、SNS分析など)では、大きな武器になるでしょう。
次回は、探索結果の可視化や、FDR制御付きの結果解釈についても紹介していく予定です。
ご希望があれば、このまとめをマークダウン形式やWordPress向けに最適化することも可能です。
user:
ありがとうございます。今日はこれで充分です。今後もまたよろしくお願いします!
assistant:
こちらこそ、ありがとうございました!今回のような因果探索や時系列分析の話題はとても面白いですね。またいつでも気軽にご相談ください。ブログ執筆も応援しています!
どうぞ良い一日をお過ごしください ☕✨