はじめに
- 本記事では統計学で基本となる行列表記による基本統計量の表現についてまとめます。
- 内容は「シリーズ〈行動計量の科学〉 非計量多変量解析法」をもとに作成しております
- 非常に良い本です!みなさまぜひ手に取ってみてください!
表記
-
個体 $i$ から得られた変数 $j$ の観測値 $x_{ij}$ (要素) を $n$ (個体) $\times$ $m$ (変数) のデータ行列 $\mathbf{\mathbf{X}} = [x_1, \ldots, x_m]$ と定義する
-
ここで、
\begin{align}
\mathbf{x}_j = [x_{1j}, \ldots, x_{nj}]'
\end{align}
($j = 1, 2, \ldots, m$) は $n$ 個体の変数 $j$ からなる $n \times 1$ ベクトルであるとする
平均と平均偏差得点と中心化行列
-
$\mathbf{1}_n = [1, \ldots, 1]'$ はすべての要素が1の $n \times 1$ ベクトルとする
-
このとき、変数 $j$ のデータの合計は以下で表現できる
\begin{align}
\sum_{i=1}^n x_{ij} = \mathbf{1}_n' \mathbf{x}_j
\end{align}
以下のような計算により確認できる
\begin{align}
\mathbf{1}_n' \mathbf{x}_j
&= [1' \ldots 1'] \begin{bmatrix} x_{1j} \\ \vdots \\ x_{nj} \end{bmatrix} \\
&= \sum_{i=1}^n x_{ij} \\
\end{align}
-
変数 $j$ のデータの平均は以下で表現できる
$$
\overline{x_j} = \frac{1}{n} \sum_{i=1}^n x_{ij}
$$
$$
= \frac{1}{n} \mathbf{1}_n' x_j
$$ -
平均 $\overline{x}_j (j=1,2,\ldots,m)$ を変数とする $ j\times m$ 行ベクトルは
$$
[\overline{x}_1, \ldots, \overline{x}_m] = [\frac{1}{n} \mathbf{1}_n' \mathbf{x}_1, \ldots, \frac{1}{n} \mathbf{1}_n' \mathbf{x}_m]
$$ -
平均偏差得点、$x_{ij} - \overline{x}_j$ を要素とする $n \times m$ 行列は
$$
\mathbf{Y} = \mathbf{X} - n^{-1} \mathbf{1}_n \mathbf{1}_n' \mathbf{X} = \mathbf{J}\mathbf{X}
$$
ここで、
$$
\mathbf{J} = \mathbf{I}_n - n^{-1} \mathbf{1}_n \mathbf{1}_n'
$$
である
以下のようか簡単な計算から確認できる
\begin{align}
\mathbf{Y} = \begin{bmatrix} x_{11} - \overline{x}_1 & \ldots & X_{1m} - \overline{x}_m \\ \vdots & \ddots & \vdots \\ x_{n1} - \overline{x}_1 & \ldots & X_{nm} - \overline{x}_m \end{bmatrix}
\end{align}
\begin{align}
\mathbf{X} - n^{-1} \mathbf{1}_n \mathbf{1}_n' \mathbf{X}
= \begin{bmatrix} x_{11} - \overline{x_1} & \ldots & x_{1m} - \overline{x_m} \\ \vdots & \ddots & \vdots \\ x_{n1} - \overline{x_1} & \ldots & x_{nm} - \overline{x_m} \end{bmatrix}
\end{align}
-
中心化行列 $J$について
$$
\mathbf{J} = \mathbf{I}_n - n^{-1} \mathbf{1}_n \mathbf{1}_n'
$$-
対称性
$$
\mathbf{J}' = \mathbf{J}
$$ -
冪等
$$
\mathbf{J}^2 = \mathbf{J}
$$
-
冪等については
\begin{align}
\mathbf{J}^2
&= (\mathbf{I}_n - n^{-1} \mathbf{1}_n \mathbf{1}_n')^2\\
&= \mathbf{I}_n - 2n^{-1} \mathbf{1}_n \mathbf{1}_n' + n^{-2} \mathbf{1}_n \mathbf{1}_n' \mathbf{1}_n \mathbf{1}_n'\\
&= \mathbf{I}_n - n^{-1} \mathbf{1}_n \mathbf{1}_n' \\
&= \mathbf{J}
\end{align}
より確認できる
共分散行列と標準得点と相関行列
- 変数 $j$ と $k$ の共分散を次のように定義する
\begin{align}
v_{jk} = \frac{1}{n} \sum_{i=1}^n (x_{ij} - \overline{x}_j)(x_{ik} - \overline{x}_k)
\end{align}
- 標準化得点
\begin{align}
(x_{ij} - \overline{x}_j) / \sqrt{v}_{jj}
\end{align}
を要素とする $n \times m$ の行列 $\mathbf{Z}$ は
$$
\mathbf{Z} = \mathbf{J} \mathbf{X} \mathbf{D}^{-1/2}
$$
と表現できる
ここで、
$$
\mathbf{D}^{-1/2} = \text{diag} (v_{11}^{-1/2}, \ldots, v_{mm}^{-1/2})
$$
である
- 変数 $j$ と $k$ の相関係数 $r_{jk} = v_{jk} / (v_{jj} v_{kk})^{1/2}$
変数 $\mathbf{X}$ を要素とする $m \times m$ の相関行列 $\mathbf{R}$ は
$$
\mathbf{R} = \mathbf{D}^{-1/2} \mathbf{V} \mathbf{D}^{-1/2}
$$
列中心化された行列
$$
\mathbf{Y} = \mathbf{X} - \frac{1}{n} \mathbf{1}_n \mathbf{1}_n' \mathbf{X}
$$
と表現できる
- またデータが列中心化されていれば、共分散行列は $J$ を用いずに表せる
$$
\mathbf{V} = \frac{1}{n} \mathbf{Y}'\mathbf{Y}
$$