非定常過程(≒前の値に値を足して現在の値を作る時系列データ)が2つあったとき、2つのデータからそのまま相関係数や線形回帰を出すと見せかけの回帰になるから気をつけろとよく言われる。
じゃあ、片方が非定常過程で、もう片方が定常過程の時系列データだった時はどうなるの?と思って実験してみた。
Rの実験コードは以下。
#定常過程と定常過程
p1 <- c()
for (i in 1:10000) {
p1 <- c(p1, cor.test(rnorm(100),rnorm(100))$p.value)
}
hist(p1)
#定常過程と非定常過程
p2 <- c()
for (i in 1:10000) {
p2 <- c(p2, cor.test(cumsum(rnorm(100)),rnorm(100))$p.value)
}
hist(p2)
#非定常過程と非定常過程
p3 <- c()
for (i in 1:10000) {
p3 <- c(p3, cor.test(cumsum(rnorm(100)),cumsum(rnorm(100)))$p.value)
}
hist(p3)
結果。
定常過程と定常過程のP値の分布は一様分布
定常過程と非定常過程のP値の分布は一様分布
非定常過程と非定常過程のP値の分布は一様分布ではない
定常過程と非定常過程の相関のP値は一様分布になっているので、問題なさそう(見せかけの回帰にはなっていない)。つまり定常過程と非定常過程で相関を出してもOKっぽい?
誤りがありましたらコメントにてお願いいたしますm(__)m