はじめに
千葉大学/Nospareの米倉です.今回は単位根について解説したいと思います.
モチベーション
次の図は,1975年1月から2005年4月までの,ドル・円の実効為替レートです.
この時,第二のジョージ・ソロスになりたい貴方は,この実行為替レートの動きを予測したいとたくらみます.たくらんでるとインドの神様が脳に降臨し,「ショーンKというデータセットを与えます,説明変数にしてみなさい」と,謎のデータセット,ショーンKを与えてくれたとします.
神様には逆らえませんので,試しにドル・円の実効為替レート(rate)とショーンKの相関を求めてみると,$0.917$ととても強い正の相関がありました.これはもしかしてあるのでは?と次の回帰式を考えました.
$$
rate = \beta_0 + \beta_1ショーンK +\epsilon_t
$$
これをOLS推定したら次の結果を得ました.
なんと回帰直線(赤)が為替レートの動き(青)を完璧に捉えている!!!
試しに$t$値も計算すると,$t=54.22$となり余裕で有意になり(仮説検定の良しあしについてはおいておく),ショーンKが分かれば実行為替レート分かるぜ!・・・とはやはりならず,何がいけないのかを学ぶのがモチベーションです.
単位根とは
${y_t}$を確率過程とします.つまり,時間のインデックス$t$に依存して,値が変わる確率変数です.例えばGDPや質疑業率や上記の為替レートなど,時系列データを想像してください.この時,${y_t}$が弱定常仮定であるとは任意の時間インデックス$t,j$に対して,
- $E[y_t]=\mu$
- $E[(y_t-\mu)(y_{t-j}-\mu)]=\gamma_j$
が成立することを指します.つまり,弱定常な確率過程は期待値と自己共分散が時間を通じて一定であることを要求します.この性質より,弱定常な確率過程はトレンドを持たず,平均回帰的であることが分かります.
ところで上記の為替レートは平均回帰的ではあきらかにありません.これは最近の急激の円安などを耳にしていれば何となくわかると思います.またGDPや株価等は,長期的には正のトレンド(上昇傾向)をもっています.このように,特に経済の時系列データはトレンドを持っていたり平均回帰的ではない=非定常ものが多いです.
このような非定常な時系列過程の代表例が「単位根過程」です.単位根過程の定義は
- $y_t$は非定常=弱定常ではない.
- 階差$\Delta y_t:=y_t-t_{t-1}$は弱定常.
で与えられます.単位根過程の典型例が「ランダム・ウォーク」と呼ばれる確率過程です.ランダム・ウォークは
$$
y_t = c + y_{t-1} + \epsilon_t
$$
で与えられます.ここで$c$は定数で,$\epsilon_t$はiidで$\epsilon_t \sim N(0,\sigma^2)$に従うとします.
ランダムウォークが弱定過程でないことは期待値を例えばとると明らかです.一方で階差とると,$y_t-y_{t-1}=c+\epsilon_t$となり,期待値も自己共分散も一定となるので,単位根過程であることも分かります.
実は先ほどの「ショーンK」はランダム・ウォークに従って生成した適当なシミュレーション値です.上の図がショーンKの値をプロットしたもので,トレンドを持ちどんどんと値が大きくなっているのが分かると思います.下の図がショーンKの一階差を取った値をプロットしたもので,平気回帰的でありトレンドがないことが分かると思います.
では,どうしてそんな適当なシミュレーション値(ショーンK)が実際のデータ(ドル・円為替レート)との当てはまりがよく見えるのでしょうか.
単位根過程の帰結
ランダム・ウォークを例に,単位根過程が意味することを確認しましょう..ランダム・ウォークの定義式を繰り返し代入していくと,$y_0=0$として
$$
y_t = c + y_{t-1}+\epsilon_t
=2c+ y_{t-2}+\epsilon_t+\epsilon_{t-1}
\cdots
=tc + \sum_{i=1}^t \epsilon_i
$$
を得ます.この時期待値が$tc$となるので,$t$に依存した線形のトレンドがあります.また分散は$t\sigma^2$となり,これも$t$に依存します.なので$t$を大きくすると,分散は発散することになり,また値はどんどん大きくなります.これは上のランダム・ウォークの図を見ても分かると思います.
実はこの分散が発散していくことが特に悪さをして,普通にOLS推定して何か検定をすると,単位根過程の場合ほぼ確実にt統計量等が非常な大きな値を取り,ほぼ確実に帰無仮説を棄却します.またトレンドがあるものにトレンドがあるものを回帰しても,このトレンドの部分が邪魔をして,モデルの当てはまりがよさそうな結果になってしまいます.これがいわゆる「みせかけの回帰」です.
どうすればいいの?
時系列データで回帰分析をするさいには,まずデータが単位根であるか否かを検定するのが定石です.検定には「単位根検定」とよばれる,単位根か否かを仮説検定をする色々な手法が提案されているのですが,問題も指摘されています.他の方法としては,OLS推定などするのではなく,時系列モデルをベイズ推定を行う方法です.個人的には,時系列データは頻度論的な手法で分析を行うよりも,時系列モデルをベイズ推定する方が無難であると考えています.
単位根と単位根検定
ここまで単位根を解説しましたが,個人的に単位根関係は不思議な現象を良く経験します.例えば,一日当たりの労働時間に対して単位根検定を行った際,単位根であることが示唆された経験があります.上記の様に単位根であると,その系列の分散は発散していきます.しかし一日は24時間と上限があるので,一日の労働時間の分散が発散していくのは意味が分かりません.このように単位根は非常に大切な概念なのですが,実際に検定などを行うと現実とは乖離した結果が帰ってくることも経験上多いです.これを踏まえて,僕は検定などより,時系列モデルをベイズ推定を行った方が妥当な結果が帰ってくると考えています.
一方で,よくみかける2つの時系列データを回帰したら当てはまりが良かったです,みたいなポンチ絵・分析は今までの解説通り論外なので,このような分析に騙されないようになってほしいなと思います.
おわりに
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.