This post is Private. Only a writer or those who know its URL can access this post.

Python3ではじめるシステムトレード: トレンドの予測

Prediction and Regulation by linear least-square methods by Peter Whittle 1963

の翻訳です。

2.6 線形確定論:Woldの分解定理

離散時間の確定的プロセスは、(1.2.1)の形式の関数関係にあり、そこには確率的な要素はない。
$$(x_t=G(x_{t-1},x_{t-2},\cdots,t) \ \ \ \ \ \ \ \ (1.2.1))$$
ここからは線形関係のみを扱う。そして、線形の確定論の考えを導入する。$x_t$が$x_{t-1},$$x_{t-2},\cdots$の線形関係で、平均二乗誤差がゼロで予測できれば、その定常過程は線形確定的である。より具体的には、もし
$$ v_n=\min_{a_j} |x_t+\sum a_j x_{t-j}|^2 \ \ \ \ (1)$$

$$\lim_{n \rightarrow \infty} v_n =0$$
であれば{$x_t$}は線形で確定的である。
 $n$のオーダーが継続的に増加する線形の予測因子を考えるとき、Wold(1938)は注目すべき定理を示した。どのような定常過程{$x_t$}も2つの相互に無相関な過程の和としてただ一通りに表現できる。
$$x_t=\chi_t+\eta_t \ \ \ \ \ (2)$$

ここで{$\chi_t$}は確定的であり、{$\eta_t$}は定常で無相関な時系列の一方向の移動平均で表現できる。
$$ \eta_t=\sum_0^\infty b_s \epsilon_{t-s} \ \ \ (4)$$

$\eta_t$の要素は真に非確定的である。それは$\sigma^2(\epsilon)$と等しい限定された予測誤差をもつ。この種の極端な形式は無相関な系列{$\eta_t$}そのものである。$\chi_t$の全過程は、$\tau$をどのように選択しようとも、初期値の集合$(\cdots, \chi_{\tau-1},\chi_\tau)$により決定される。(5.3)の過程は極端で、基本的な確定的過程を表現している。
$$( \ u_t=\xi e^{i(\lambda t+ \theta)} \ \ \ \ \ (5.3) \ )$$

 (過程が非線形であっても)分解は線形で、要点は2次のモーメントを考えることである。過程の2次のモーメントは分解を決定する。
 過程は厳密に確定的になることができ、線形という意味で(真に非線形であっても)非確定的になりえる。たとえば(Doob, 1952)、$\lambda$が確率変数で、$\frac{1}{2\pi} F(\lambda)$の確率分布関数にしたがい$\theta$と独立に分布しているとき
$$ x_t=e^{i(\lambda t+ \theta)} \ \ \ \ (5) $$
を考えてみよう。そうすると
$$ E(x_t)=0$$
$$
\Gamma_s=E(x_t \bar{x}_{t-s})=E(e^{i\lambda s})=\frac{1}{2\pi} \int e^{i\omega s} d F(\omega) \ \ \ (6)
$$

である。(6)と(3.4)の比較は$F(\omega)$がスペクトル分布関数にしたがう過程であることを示している。
$$(\ \Gamma_s=\frac{1}{2\pi} \int e^{i/\omega s} dF(\omega)\ \ \ \ \ (3.4) \ \ )$$

真に非確定的過程のスペクトル分布関数として、また$x_t$が単純な(5)の形式の関数ではなくて、それ自身非確定的な過程として選ぶことができる。得られた観測値の系列($x_s;s\ge t$)について、特定の実現値について成り立つ$\lambda$を算出できると思えば、この非線形で機能させることができる。これを行うに、誤差無しで予測することができるが、その予測は非線形になる。
 Moranにより示された別の例は、$x_0$が確率的に$(0,1)$の一様分布にしたがうとする。

$$ x_t \text{は} (2x_t) (t=1,2,\cdots)\text{の小数部分である}$$

この過程は厳密に確定的である。ここでもし$x_0$を2進数で表すと
$$
x_0=0._{v_0v_1v_2,\cdots}
$$

で$v_j$は確率が1/2の0,1からなる独立した確率変数である。そして、

$x_0=0.{v_0 v{t+1} v_{t+2}} \cdots \ \ \ \ \ (9)$

したがって、

$$E(x_t)=\frac{1}{2}\\
\Gamma_s=\textrm{cov} (x_t,x_{t-s})=\frac{2^{-s}}{12}\ (t,t-s \ge0)
$$

である。これより、先行する値に関しての$x_t$最良の線形の予測因子は

$$ \hat{x_t} = \frac{1}{4}+\frac{1}{2} x_{t-1}$$

であり、平均二乗誤差は$1/16$である。

8.2 トレンドの外挿

 20年あるいは、それ以上も前には(訳者:戦前)、時系列データの「予測」とか「外挿」いうときには、与えられたデータ、特に直近のデータについて時間の多項式を当てはめて「トレンド」を決定していた。そして、未知の将来に関してこの多項式化を適用することには一貫性があると少なくとも思われていた。公平のために、この手続きに多用される指数化を除けば、ある程度の正しい疑念を抱いていたのは確かである。というのも、いい加減な利用に対して注意を促すことなく表現される場合は稀であったからである。
 興味深いことに、進化(トレンド)の項、トレンドの項の存在は当たり前であると思われていた。そして、定常的な変化ではなく、進化の項を予測しようと試みていた。これは公平な態度であり、経済や人口統計学を扱うのあれば、一般的な方法であった。
 2番目の興味深い点として、多項式でトレンドを表現するということ以外には明確なモデルが仮定されていなかった。この仮定は粗削りであり、限定的な有効性しかないと、疑念が抱かれていた。さらに、少なくとも部分的にもモデルがないために、予測誤差の推定をすることはできなかった。
 たまにモデルが設定されるが、それは
$$ X_t=T_t+S_t+\eta_t \ \ (1)$$
という形式をしていた。$T_t$はトレンドであり、ときとして多項式とされた。$S_t$は周期的な項で季節的な変化をとらえていた。これは大抵正弦曲線を用いて表現された。$\eta_t$は真のランダムな系列か、後半に出てくる、より一般化した定常性をもった時系列である。
 $T_t$の多項式と$S_t$の正弦曲線をもつ(1)が有効であると実際に確信していれば、$T$と$S$はすべてのデータをある最小二乗法のもとで処理することで適合することができる。次節参照。しかし、$T$の多項式表現に疑念をもつのが一般的であり、これは、時系列データの短い部分に対して近似が成り立つというように、局所的に有効であると考えられている。そのために、$T_t$は最後のいくつかの観測値$x_1,$$x_2,\cdots,x_n$について当てはめを行う。周期的な項がなく、
$$ T_t=\sum_{j=0}^p a_jt^j \ \ \ (2)$$

$p+1\le n$を想定すれば、一般的に$a$は
$$ \sum_{t=1}^n(x_t-\sum_0^p a_j t^j)^2 \ \ (3) $$
を最小にすることで得られる。この計算を整えた別の方法は$T_t$を直交多項式で表現することである。
$$ P_{jn}(t)=\sum_{k=0}^j c_{jk}t^{j-k} \ \ (4)$$
また、$c_{j0}=0$であり、
$$ \sum_{t=1}^nP_{jn}(t)P_{kn}(t)=0 \ (j \ne k) \ \ (5)$$
これらの観点から、予測されたトレンドは
$$T_{n+\nu}=\sum_{j=0}^p\frac{P_{jn}(n+\nu)\sum_{t=1}^n P_{jn}(t)x_t}{\sum_{t=1}^n P_{jn}^2(t)} \ \ (6)$$
となる。
 (1)と(2)の仮定を受け入れることができれば、誤差を予測値(6)に加えることができる。次節参照。そうでなければ、そのままでよい。

8.3 確定的要素のあてはめ

 (2.1)のモデルをさらに明確にしていこう。
$$x_t=\sum \beta_j g_j(t)+\xi_t \ \ \ (1)$$
ここで$g_j(t)$は$t$について既知の関数で、$\xi_t$は3章と5章で考察したs.d.f(スペクトル密度関数)として知られる、真に非確定的な種類の時系列である。$g_j(t)$は一般に、正弦曲線の項と$t$のべき乗の項からなる、2節の季節性とトレンドに関連している。このモデルもその節と同様に多くの批判がある。どのように利用するかでよくもなる。モデル(1)は計量経済学と人口統計学にとっては非常に厳しすぎる。一方で、飛行機の飛行経路の予測にある程度用いられ、十分に滑らかで多くの$\xi_t$の変化は追跡機器からのもので、飛行機そのものの動きからではない。その意味で、このモデルは局所的であり、短い動きに有効であるが、少なくとも{$\xi$}s.d.f.と定式化による誤差が適切に収まりながら適切な予測を達成できる程度に十分なデータが手に入る必要がある。
 推定したい量は
$$ y=\sum_1^q \beta_j h_j + \zeta$$
であり、$h_j$は既知の定数である。また、$\zeta$は平均がゼロの確率変数であり、その$\xi_t$との同時分布は既知である。たとえば、真の予測では、$y=x_{t+\nu}$のとき、$h_j=g_j(t+\nu),\zeta=\xi_{t+\nu}$である。より現実的な場合では、
$$
y=u_{t+\nu} \\
x_t=u_t+\eta_t \\
u_t=\sum_1^q \beta_j g_j(t)+\zeta_t \ \ \ (3)
$$
なので、予測は不安定で困難になる。確定的な項$\sum \beta_j g_j(t)$を信号の要素{$u_t$}の中に置き、ノイズの要素{$\eta_t$}の中に置いていない。多くの応用例において、これは現実的である。
 $\beta_j$が既知であれば、すべての確定的要素を除くことができる。そして今まで展開してきた方法で既知の$\xi_t$から$\zeta$を予測すればよい。しかし、$\beta_j$は一般に、未知である。それは確率変数であり、ある現実に対して具体的な数値をもつが、その値は状況により変化する。たとえば、それぞれの動きで、飛行経路を特定すると考えている。
 4.3節でこの問題を扱った。係数$\beta_j$の値が未知のときに値$x_t$の集合から$y$を予測した。(4.3.4)のミニマックス基準は(4.3.7)の需要を導いた。系列$g_j(t)$の推定量が正確であるという条件のもとで、古典的な最小二乗法は強化される。それはすなわち線形最小二乗法であり、$\hat{y}$は
$$ x_t=g_j(t)$$
のときに
$$ \hat{y}=h_j$$
となる。$(j=1,2,\cdots q)$。これは同様に、観測値$x_t$は$\beta_j$の推定値$\hat{\beta_j}$の構築に用いられる。これは$\xi_t$が正規分布にしたがうとき、最尤法と同じである。そして、
$$\hat{y}=\sum \hat{\beta_j} h_j+\zeta$$
となる。ここで、$\hat{\eta_j}$は
$$ \hat{\xi_t}=x_t-\sum \hat{\beta_j}g_j(t)$$
から予測される。同様の方法で、もし両方が直接観測可能であれば、$\zeta$は$\xi_t$から予測される。
 標本を有限だと仮定し、離散の場合は$(x=0,x_1,\cdots,x_{n-1})$、連続値の場合は、$(x_t;0\ge t \ge T \ )$である。これには3つの理由がある。モデル(1)は近似と考えられていて、最大値をもつ短い時間間隔で有効である。飛行経路の予測のような応用では限られた間隔のデータしかない。そして無限に近いような$x_t$をもっている場合、$ g_j(t) \ $はそう早く成長しない。したがって、問題は明確である。$\hat{\beta_j}$よりも荒い推定であっても、$\beta_j$をゼロ点標本の分散として推定する。
 そこで、唯一の問題は$\beta_j$の計算である。(4.3.4)で見たように、
$$ \hat{\beta}=(G^\dagger V^{-1}G)^{-1}G^\dagger V^{-1}X \ \ \ $$
である。ここで$X$はベクトル$(x_0,x_1,\cdots,x_{n-1})$である。$V$は共分散行列$(\xi=0,\xi_1,\cdots,\xi_{n-1})$、$G$は$g_j(t)$を要素とする$n \times q$ $(j=1,2,$ $\cdots q;$ $t=0,1,\cdots$ $ n-1 \ \ )$。$V^{-1}$の計算は原理的に難しい。ここでは7章の結果を使わねばならない。

8.5 累積過程

$p-1$次の多項式は
$$\Delta^px_t=0\ (1)$$
の解である。ここで$\Delta$は差分作用素で
$$\Delta=x_t-x_{t-1} \ \ \ \ (2)$$
と書ける。単純な多項式よりも一般的で、柔軟性のある考え方として、
$$\Delta^px_t=\zeta_t \ \ \ (3)$$
がある。{$\zeta_t$}は定常過程である。このように生成された過程を累積過程と呼ぶことにする。これは、わずかな減衰をともなうか、減衰をもとなわない線形のメカニズムから自然に発生する。事実、(3)の関係は、入力が相関をもつ自己回帰の特別な場合であると考えるのが妥当である。
$$\sum_0^p a_j x_{t-j}=\zeta_t \ \ \ \ (4)$$
安定するためには、$A(z)=\sum a_jz^j$の零点は、単位根の外になければならない。もしこの零点が単位根に近づくと、(3)の場合には$z=1 \ $で$p$重零となり、過程は進化し続けるようになる。
 (3)により生成される過程{$x_t$}は明確に確定された初期条件から始まり、2種類の進化のふるまいを示す。1つは多項的なトレンドであり、$x$の初期値により係数が決定される。そしてもう1つは分散の明確な増加である。
 この種類の過程を最初に詳細に分析したのはYaglom(1955)であった。定常過程を単純な多項式の重ね合わせで仮定するよりもはるかに自然である。最終的な過程そのものというよりも、自明のことと仮定された過程を生成するモデルである。(4)の古典的な線形モデルのもっともらしく限定されたモデルである。そして、従来型の予測理論を拡張することで、これらを扱える。さらに、$p-1$次までの多項式についていえば、これらの一般化された予測方程式は自動的に(1)式の解となる。

8.6 指数加重移動平均(Exponentially Weighted Moving Average)

 $\hat{x}{t+\nu}$はあいまいな表記だと以前指摘した。ときには$x_t,x{t-1}$をもとにした予測値だということを示すために$\hat{x}$$_{t+\nu,\nu}$と記述を変える必要がある。
 有効な予測因子は

$$\hat{x_{t+\nu,\nu}}=\lambda x_t+\mu \hat{x}_{t+\mu-1,\nu} \ \ (1)$$
の形の再帰関係を用いて構築できるとHold,Coxなどの多くの研究者により示唆されている。ここで$\mu$と$\lambda$はある種の経験をもとに選ばれる係数である。観測値にもとづく予測の(1)の解は

$$\hat{x_{t+\nu,\nu}}=\lambda \sum_0^\infty \mu^j x_{t-j} \ \ (2)$$
である。このような理由でこの方法は上の表現を与えている。しかし、Ex(3.3.12)に見たように、予測因子は合理的スペクトル密度の過程

$$ g(z)=\sigma^2 \left|\frac{Q(z)}{P(z)}\right|^2 \ \ \ (3)$$
を用いてWiener理論から得られる。そして、ここでの新規のアイデアは(2)について(1)を用いて計算することが便利であるという点である。
 したがって、$P(z)=1-\alpha z$、$Q(z)=1-\beta z$であれば、Wienerの予測因子は、(1)についていえば、

$$\hat{x_{t+\nu,\nu}}=(\alpha-\beta)\alpha^\nu x_t+\beta \hat{x}_{t+\mu-1,\nu} \ \ (4)$$
にしたがう。より一般的なこのような再帰の例はEx(3.3.12)で紹介した。
 ときとして、$\lambda$と$\mu$は、予測するときに$x_t$=定数(または、より一般的な場合での与えられた次数の$x$の多項式)に対して予測が完全になるように$\lambda$と$\mu$が選ばれる。これは、(5)節から得れるが、もし$P(z)$が$z=1 $でゼロならば、伝統的な線形最小二乗法から自動的に得られる。
 たとえば、(4)で$\alpha=1$であれば、

$$\hat{x_{t+\nu,\nu}}=(1-\beta) x_{t} +\beta \hat{x_{t+\mu-1,\nu}} \ \ (5)$$
これは$x_t$が定数に対して完全である。

Ex.1 もし$P(z)=(1-\alpha_1 z)(1-\alpha_2z) \ $、$Q(z)=1-\beta z \ $であれば、最小二乗法による予測因子は

$$\hat{x_{t+\nu,\nu}}-\beta \hat{x_{t+\nu-1,\nu}}=\lambda x_{t} +\mu x_{t-1} \ \ \ $$
であることを示せ。$\lambda$と$\mu$は過程$\alpha_1^t \ $と$\alpha_2^t \ $に対して予測因子が完全であるようなものである。

Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account log in.