はじめに
この記事は統計検定2級合格への道 〜その②〜の続編です。
この記事は「改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎」を参考に、私が学んだ内容をまとめたものです。
時系列データの分析
指数化
時間の順に得られたデータを時系列データという。
時系列データを分析する際、時系列間の値の大きさを揃えるため、ある時点を基準とする指数化が行われることが多い。
特に、経済分析で用いる指数を経済指数という。
指数 q_{t}={y_{t} \over y_{s}} (t=0,1,\cdots,T-1,T)
$\{y_{i}\}$:時系列データ
$y_{s}$:基準時の値
幾何平均
時系列データが成長率などの前期比として与えられた場合、平均伸び率を計算するには、算術平均よりも幾何平均を用いることが適切である。
$r_{t}=y_{t}/y_{t-1}$:伸び率
\begin{align}
幾何平均 r_{G} &= {\Bigl (}\prod_{t=1}^{T}r_{t}{\Bigr )}^{1/T} \\
算術平均 r_{M} &= {1 \over T}\sum_{t=1}^{T}r_{t}
\end{align}
幾何平均がなぜ平均伸び率の算出に適しているか説明する。
例として、以下の時系列データと伸び率を考える。
\begin{align}
時系列データ \{ y \} &= 100, 200, 400, 500, 600 \\
伸び率 \{r \} &= 2.0, 2.0, 1.25, 1.2
\end{align}
この伸び率の幾何平均および算術平均は以下のように計算される。
\begin{align}
幾何平均 r_{G} &= \sqrt[4]{2.0 \times 2.0 \times 1.25 \times 1.2} \simeq 1.565 \\
算術平均 r_{M} &= {2.0 + 2.0 + 1.25 + 1.2 \over 4} = 1.6125
\end{align}
幾何平均および算術平均の値を時系列データの初回の値である100に4回掛けると、
幾何平均の場合は100*1.565^(4)=599.87、算術平均の場合は100*1.6125^(4)=676.08となる。
結果を見て分かる通り、
幾何平均の値は平均の伸び率を表すが、算術平均の値は平均の伸び率を大きく見積もってしまっている。
このように、伸び率のような比の平均を求める際は幾何平均を用いることが適切となる。
時系列データの変動分解
経済時系列データの時間変動を3種類に分けて分析する。
- 傾向変動(循環変動含む):$TC$
基本的な長期に渡る動きを表す変動を指す。
- 季節変動:$S$
1年を周期として循環を繰り返す変動を指す。
- 不規則変動:$I$
規則的ではない変動を指す。予測が困難な偶然変動が含まれる。
上記3つの指標を用いて、時系列データを分解して分析する。
y_{t} = TC_{t}+S_{t}+I_{t}
ある時刻での傾向変動:$TC_{t}$を抽出するための方法は様々あるが、ここでは移動平均法を紹介する。
TC_{t} = {1 \over 2k+1}\sum_{s=t-k}^{t+k}y_{s}
時刻$t$を動かしながら平均を取るため、これを移動平均という。
上式では、(2 k +1)個の時点を用いているので(2 k +1)項移動平均とよぶ。一般にm項移動平均を用いると周期mで循環する成分が除去される。
例えば、1年(12ヶ月)で循環することが予想される月次データの場合、12項移動平均によって傾向変動:$TC_{t}$を求めることが適切である。
しかし、項数が偶数の場合は、上式にそのまま当てまめることができない。
この場合は、以下のような、$k=6$として、最初と最後の項の半分の値を用いた式を用いることが一般的である。
TC_{t} = {1 \over 12}{\Bigl(}{{y_{t-6} \over 2} + y_{t-5} + \cdots + y_{t+5} + {y_{t+6} \over 2}}{\Bigr)}
もとの時系列データから傾向変動を引いた$w_{t}=y_{t}-TC_{t}$は季節変動と不規則変動を含んでいる。
季節変動は、各年で変化しない(各年の月で同じ値をとる)ことを仮定し、$w_{t}$の各月の平均として定義される。
S_{t} = \{ w_{t} \}の各月の平均
不規則変動は、残差$I_{t}=y_{t}-TC_{t}-S_{t}$として求めることができる。
自己相関
元の時系列のデータと、時点を$h$だけずらした時系列を別のデータとみなし、それらのデータ間の相関関数を自己相関関数という。
${ y_{t},t=1,2,\cdots,T }$:元の時系列
${ y_{t+h},t=1,2,\cdots,T-h }$:時点をhだけずらした時系列
$h$:ラグ(時間の遅れ、あるいは隔たりの大きさを表す変数)
\begin{align}
自己相関関数 C_{h} &= {1 \over T }\sum_{t=1}^{T-h}(y_{t}-\bar{y})(y_{t+h}-\bar{y}) h=0,1,2,\cdots \\
自己相関係数 r_{h} &= {C_{h} \over C_{0}}
\end{align}
ラスパイレス指数
多数の同種のデータを比較するために、ある値を基準にして他の値を基準値に対する比で表したものを指数という。
例えば、豚肉とキャベツの2010年を基準とした品目別価格指数(={当月の価格}/{2010年の平均価格})がそれぞれ豚肉:1.1、キャベツ;0.9であった場合、
これらの値から、「豚肉は値上がりしているが、キャベツは値下がりしている」ということを容易に読み取ることができる。
(この指数を用いない場合、当時の価格と現在の価格という品目ごとに異なる2つのデータが必要となり、品目が多くなるにつれて、
比較を行う作業が煩雑になってしまう。)
ラスパイレス指数とは、多数の品目の価格を総合した価格指数であり、各品目の価格指数を支出額の割合で加重平均をとったものと定義さる。
ラスパイレス価格指数 P_{{\rm L}(0,t)}=\sum_{i}{\Bigl(}{p_{0i}q_{0i} \over \sum_{j} p_{0j}q_{0j}}{\Bigr)}{\Bigl(}{p_{ti} \over p_{0i}}{\Bigr)}
$p_{0i}$:i番目の品目の基準時点の価格
$q_{0i}$:i番目の品目の基準時点の数量
$p_{ti}$:i番目の品目の比較時点の価格
$q_{ti}$:i番目の品目の比較時点の数量
上式で価格と数量を入れ替える($p \leftrightarrow q$)とラスパイレス数量指数を求めることができる。
ラスパイレス指数は、実質GDP(={名目GDP}×{ラスパイレス指数})の計算や、公務員の給与水準の計算に用いられる。