統計検定準1級の取得向けに整理したチートシートです。
参考としたのは下記の統計検定実践ワークブックです(著者は基本この本を繰り返し学習して準1級に合格(&優秀成績賞を獲得)しました)。
このチートシートでは主に覚えるべき数式と、筆者の観点でテストを受ける際のポイントと思われる箇所を記載しています。
※筆者が所属するNPO法人の勉強用にメモしたものです。専門領域でないため誤りや誤解があるかと思いますので、加筆修正すべきことろがありましたらご指摘ください。継続してブラッシュアップしていきます。
確率、各種確率分布、区間推定、検定
各種確率分布については下記の記事で整理していますので、こちらを参照ください。
区間推定や検定の基礎については、2級受験用に記載した下記の記事をよろしかったら参照ください。
テストでのポイント
- 統計検定2級での確率、区間推定、検定はしっかりとおさらいしておく
- 準1級から出てくる確率分布(ガンマ分布、ベータ分布等)の式や平均、分散、モードを理解する
- 各確率分布が再生性や無記憶性を持つかを整理する
確率、各種確率分布、区間推定、検定の上記以外の主な数式
変数変換
Box-Cox変換
データの分布を正規分布に近づける。
\begin{align}
&\hspace{150mm} \\
&\left\{
\begin{array}{ll}
\frac{x^\lambda - 1}{\lambda} \hspace{20mm} (\lambda\neq{0}) \\
logx \hspace{20mm} (\lambda={0})
\end{array}
\right.
\end{align}
極限定理,漸近理論
デルタ法
\begin{align}
&\sqrt{n}(f(\bar{X}_n) - f(\mu)) は、\hspace{2mm} N(0, f'(\mu)^2\sigma^2) \hspace{2mm}に分布収束する \hspace{75mm}\\
\hspace{2mm}\\
&\mathrm{ex.} \\
&\sqrt{n}(\bar{X}_n^3 - \mu^3) は、 \hspace{2mm}N(0, 9\mu^4\sigma^2) \hspace{2mm} に分布収束する
\end{align}
統計的推定
ジャックナイフ推定量
\begin{align}
&\hat{θ}_{jack} = n\hspace{1mm}\hat{θ} - (n - 1)\hspace{1mm}\hat{θ}(・) \hspace{50mm}\\
&\hspace{2mm} \\
&ここで、\\
&\hat{θ}(・) = \frac{1}{n}\sum_{i=1}^{n}\hat{θ}(i)
\end{align}
検定の基礎と検定法の導出
検出力、必要なサンプル数
- 検出力の算出
\begin{align}
&H_0 : \hspace{10mm} c = p_0 + 1.96_{(=z_{\alpha/2})} \sqrt{\frac{p_0×(1 - p_0)}{n}} = 0.xxxx \\
&H_1 : \hspace{10mm} Z_{h1} = \frac{\hat{p}(=0.xxxx) - p_1}{\sqrt{\frac{p_1×(1 - p_1)}{n}}} \\
&\Rightarrow \hspace{10mm} P(\hat{p} \geqq c) = 1 - P(Z_{h1}) 点の確率を求める
\end{align}
- 必要なサンプル数の算出
\begin{align}
&p_0 + 1.96_{(=z_{\alpha/2})} \sqrt{\frac{p_0×(1 - p_0)}{n}} = p_1 - 0.84_{(=-z_{1-\beta})} \sqrt{\frac{p_1×(1 - p_1)}{n}} \\
&上記式をnについて解く
\end{align}
エフェクトサイズ
効果の大きさが標準偏差の何倍に相当するのかの値。
\begin{align}
&n = \frac{(Z_{α/2} + Z_{β})^2}{\Delta^2} \hspace{75mm} \\
&\hspace{10mm}\\
&ここで、\\
&\Delta(エフェクトサイズ): \biggl(\frac{\mu_1 - \mu_2}{\sigma} \biggr) ^2
\end{align}
テストでのポイント
- 必要なサンプルサイズを算出出来るようにする
- エフェクトサイズの式を覚える
エフェクトサイズの式から検出力 (1-β) の検定統計量 Z1-β は以下の式となる
\begin{align} n &= \frac{(Z_{α/2} + Z_{β})^2}{\Delta^2} \\ \sqrt{n} \cdot {\Delta} &= Z_{α/2} + Z_{β} \\ Z_{1-β} \hspace{2mm} &=\hspace{2mm} - Z_β \\ &= Z_{α/2} \hspace{3mm}-\hspace{3mm} \sqrt{n} ・ \Delta \end{align}
一般の分布に関する検定法
尤度比検定
\begin{align}
&\lambda_n = \frac{max_{(\theta_1,\theta_2)}\;\;f_n(x_n;\theta_1, \theta_2)}{max_{(\theta_2)}\;\;f_n(x_n;\theta_{10}, \theta_2)}
&\hspace{2mm}\\
&2n\biggl(\hat{\theta}log\frac{\hat{\theta}}{\theta_0} + (1 - \hat{\theta}) log\frac{1 - \hat{\theta}}{1 - \theta_0}\biggr) \hspace{5mm}\geqq\hspace{5mm} \chi_α^2(1)
\end{align}
イエーツの補正
適合度検定において度数が十分に大きくない場合に使用する。
(\hspace{1mm}|\hspace{1mm}x_i - n\hat{p_i} \hspace{1mm}| \hspace{2mm}-\hspace{2mm}0.5\hspace{1mm})^2 \hspace{50mm}
多変量解析、さまざまな応用等
ノンパラメトリック法
母集団分布を例えば正規分布と仮定したりすることなく、仮説検定を行う方法。
検定内容 | 検定名 |
---|---|
2群の差の検定 | ウィルコクソンの順位和検定、並び替え検定 |
対応がある場合の差の検定 | ウィルコクソンの符号付き検定、符号検定 |
3群以上の差の検定 | クリスカル・ウォリス検定 |
ウィルコクソンの順位和検定
2群の差の検定を行う。
\begin{align}
&\hspace{20mm}\frac{P(W_A \leqq x)}{{}_{m+n}C_m} \\
&\hspace{2mm} \\
&ここで、\\
&W_Aは群Aの順位の和、mは群Aのサンプル数、nは群Bのサンプル数、xは検定する順位和
\end{align}
データ数が多い場合は、正規分布で近似できる。
\begin{align}
&平均: \frac{m(m+n+1)}{2} \hspace{20mm}\\
&分散: \frac{mn(m+n+1)}{12}
\end{align}
ウィルコクソンの符号付き順位検定
\begin{align}
&\hspace{10mm}\frac{P(T_+ \geqq x)}{2^n} \\
&\hspace{2mm} \\
&ここで、\\
&T_+は、正値の合計値、nはサンプル数、xは検定する順位和 \hspace{30mm}
\end{align}
データ数が多い場合は、正規分布で近似できる。
\begin{align}
&平均: \frac{n(n+1)}{4} \hspace{20mm}\\
&分散: \frac{n(n+1)(2n+1)}{24}
\end{align}
クラスカル・ウォリス検定
2群以上の複数の群の分布に差があるのか否かを検定する。
\begin{align}
&H = \frac{12}{N(N+1)}(n_A(\bar{R_A} - \tilde{N})^2 + n_B(\bar{R_B} - \tilde{N})^2 + n_C(\bar{R_C} - \tilde{N})^2) \\
\hspace{2mm} \\
&ここで、 \\
&\tilde{N} = \frac{N+1}{2} = 順位の中央値、Nはサンプル数、n_Aは群Aのサンプル数、R_Aは群Aの順位和、\bar{R_A}は群Aの順位の平均 \\
&\hspace{1mm} \\
&検定は、自由度 n = (群の数-1) の \chi^2(n)で行う
\end{align}
ケンドールの順位相関係数
r_k = \frac{P - N}{\frac{n(n - 1)}{2} \hspace{4mm}_{(={}_nC_2)} }
テストでのヒント
- 各検定の算出式を覚えて算出できるようにする
- 順位和検定や符号付き順位和検定でNが大きい時も想定しスムーズに解けるようにする
マルコフ連鎖
マルコフ定常
\pi(Q -I ) = 0
パラメータ推定
下記のように対数化した後に微分し、微分値=0で求める
- Step1
P_0(x_0)\hspace{2mm}\Pi\hspace{2mm}P_0(x_{j-1},x_j)
- Step2 対数化
ln(\theta) = \sum log P_0(x_{j-1},x_j)
- Step3 微分 = 0
\frac{\partial}{\partial\theta}l_n(\theta) \hspace{2mm}=\hspace{2mm} 0
公式のおさらい
- 対数の微分
(logx)' = \frac{1}{x} \\ (log_aX)' = \frac{1}{xloga} \\
- 2次方程式(ax2 + bx + c)の解
x = \frac{-b\pm\sqrt{b^2-4ac}}{2a}
テストでのポイント
- 状態空間や推移確率行列を求めてパラメータθを算出出来るようにする
確率過程の基礎
ポアソン過程
P(N_t = k) \hspace{4mm}=\hspace{4mm} e^{-λt} \frac{(λt)^k}{k!}
複合ポアソン過程
X_t = \sum_{k=1}^{N_t}U_k
\begin{align}
&\mathrm{ex1.} \\
&E[N_t] \hspace{2mm}=\hspace{2mm} \lambda t, \hspace{2mm}E[U_k] \hspace{2mm}=\hspace{2mm} \mu \hspace{2mm}ならば\\
&E[X_t] \hspace{2mm}=\hspace{2mm} \lambda \mu t , \hspace{2mm}V[X_t] \hspace{2mm}=\hspace{2mm} \lambda t( \mu^2 + \sigma^2)
&\hspace{2mm}\\
&\hspace{2mm}\\
&\mathrm{ex2.} \\
&E[N_t] = ベルヌーイ ならば\\
&E[X_1] \hspace{2mm}=\hspace{2mm} \lambda q , \hspace{2mm}V[X_1] \hspace{2mm}=\hspace{2mm} \lambda q
\end{align}
ブラウン運動のパラメータ推定
\begin{align}
&\frac{1}{n}\sum_{k=1}^{n} Z_k = \hat{\mu} \Delta \\
&\frac{1}{n}\sum_{k=1}^{n} Z_k^2 = \hat{\sigma}^2 \Delta + (\hat{\mu} \sigma)^2
\end{align}
重回帰分析
最小二乗推定量
\hat{\beta} \hspace{2mm}=\hspace{2mm} (X^T X)^{-1} X^T Y
Elastic-Net
\lambda(\alpha\parallel\beta\parallel_1 + \frac{(1 - \alpha)}{2}\parallel\beta\parallel_2^2)
テストでのヒント
- α、β値を変更した際のElastic-Netのグラフの傾向を抑えておく
回帰診断法
回帰モデルが適切かどうか下記のような誤差項の仮定が成立しているかどうかを使って評価するもの。
- 残差プロット(外れ値、等分散性、独立性)
- 正規Q-Qプロット(正則性)
- 標準化残差の絶対値の平方根プロット(予測値<->残差、等分散性)
- leverageとCookの距離
leverageは、ハット行列のi番目の対角要素 hiiをさす。この値が大きい観測値はモデルへの影響力が大きいと判断し外れ値の候補となる。 Cookの距離は0.5を越えると外れ値の候補となる。
ハット行例
\begin{align}
&H \hspace{2mm}=\hspace{2mm} X(X^T X)^{-1} X^T = (h_{ij}) \\
&\hspace{2mm}\\
&ここで、\\
&重回帰の最小二乗推定量 \hat{\beta} = (X^T X)^{-1} X^T y \hspace{30mm}\\
&予測値 \hat{y} = H\hspace{1mm}y = X \hat{\beta} \\
\end{align}
テストでのポイント
- それぞれの回帰診断法のグラフの見方(縦軸、横軸の項目まで)を理解する
- ハット行列の式を覚えておく
質的回帰
応答が「離散値」である場合の回帰モデル。
ロジスティック回帰
2値応答に対する統計モデル。期待値 π = E[Y] とし、 0 < π < 1 を仮定する。
\begin{align}
&log\frac{\pi}{1 - \pi} = \beta_0 + \beta_1x_1 + \cdots + \beta_p x_p \\
&\beta_nは回帰係数、x_nは説明変数 \\
&\hspace{2mm} \\
&\pi \mapsto \frac{e^x}{1 + e^x} \\
&\hspace{2mm} \\
&\frac{\pi}{1 - \pi} = e^{\beta_0} \cdot (e^{\beta_1})^{x_1} \cdots (e^{\beta_p})^{x_p} \\
&説明変数x_nが2増えると、(e^{\beta_n})^2 増える
\end{align}
プロビットモデル
標準正規分布の累積分布関数を用いた2値応答に対する統計モデル。
\begin{align}
&\pi = \Phi(\beta_0 + \beta_1x_1 + \cdots + \beta_p x_p)
&\hspace{1mm} \\
&限界効果(説明変数x_nの効果の大きさ) \\
&\hspace{1mm} \\
&\frac{\partial\pi}{\partial x_n} = \phi(\beta_0 + \beta_1x_1 + \cdots + \beta_{n-1} x_{n-1} + \beta_{n+1} x_{n+1} + \cdots + \beta_{p} x_p)\beta_n
\end{align}
ポアソン回帰モデル
応答が計数値である場合の統計モデル。計数値の確率変数 Y の期待値を π = E[Y] 、 π > 0 とし、Y は平均 π のポアソン分布に従うと仮定する。
log\hspace{1mm}\pi = \beta_0 + \beta_1x_1 + \cdots + \beta_p x_p
テストでのポイント
- 各モデルの式やパラメターの意味を抑えて推定値やオッズ等を算出出来るようにする
分散分析と実験計画法
1元配置
\begin{align}
&y_{ij} = \mu + \alpha_i + \epsilon_{ij}, \hspace{5mm}\epsilon_{ij} \sim N(0, \sigma^2) \\
&\hspace{2mm} \\
&ここで、 \\
&\mu = \sum_{i=1}^{a} \mu(A_i) /a , 水準間の平均 \\
&\alpha_i = \mu(A_i) - \mu \\
&\hspace{2mm} \\
&H_0 = \alpha_1 = \cdots \alpha_a = 0
\end{align}
y_{A_i} \pm t_{\alpha/2}(\phi_E) \sqrt{\frac{V_E}{n_{ai}}}
- 自由度
S_T = n - 1 \hspace{2mm},\hspace{2mm} S_A = a - 1 \hspace{2mm},\hspace{2mm} S_E = n - a
2元配置
- 自由度
S_T = n - 1 , S_A = a - 1 , S_B = b - 1, S_{A\times B} = (a - 1)(b - 1) ,S_E = n - ab
乱塊法(らんかいほう)
ブロック因子を導入し他の因子の効果を検出されやすくする。
- 自由度
S_T = n - 1 \hspace{2mm},\hspace{2mm} S_A = a - 1 \hspace{2mm},\hspace{2mm} S_B = b - 1 \hspace{2mm},\hspace{2mm} S_E = n - a - b + 1
直交表
- 各水準の自由度は
1
- 誤差平方和 SE は割り付けていない列の平方和の合計
- 信頼区間
\begin{align}
&\bar{y_A} \pm t_{\alpha/2} (\phi_E) \hspace{1mm} \sqrt{\frac{2}{N} V_E} \\
&N\hspace{2mm}=\hspace{2mm} 実験回数
\end{align}
テストでのポイント
- 分散分析や直行表の計算や検定を確実に行えるようにする
標本調査法
- (非復元抽出での)有限修正
V[\bar{x}] \hspace{2mm}=\hspace{2mm} \frac{N - n}{N - 1} \cdot \frac{1}{n} \sigma^2
- 分散を c 以下にするサンプル数 n
n \hspace{2mm}\geqq\hspace{2mm} \frac{N \sigma^2}{\sigma^2 + c(N -1)}
- ネイマン配分法
n_h = \frac{N_h \cdot \sigma_h \cdot \sqrt\frac{N_h}{N_h - 1}}{\sum N_h \cdot \sigma_h \cdot \sqrt{\frac{N_h}{N_h - 1}}} \cdot n
主成分分析(PCA)
多変量の情報を少数個の主成分と呼ばれる合成変数に集約する方法。一方で因子分析は複数のデータからその背後にある潜在的要素(因子)を発見する分析を行う方法(同じデータで主成分分析と因子分析を行うと主成分と共通因子の値は非常に似た値を持つことになる)。
- 寄与率
寄与率\hspace{2mm} c_j = \frac{\lambda_i}{(\lambda_1 + \cdots + \lambda_p)}
- 主成分負荷量
\begin{align}
&r_{y_j,x_k} = \frac{ \sqrt{\lambda_j} \cdot u_{k,j}}{\sqrt{s_{k,k}}} \hspace{80mm}\\
&\lambda_j : 固有値 \\
&u_{k,j} : 固有ベクトル \\
&s_{k,k} : 分散共分散行列での(k,k)要素=k項目の分散
\end{align}
- 主成分得点
\begin{align}
&\{y_{i,j} \hspace{2mm} = <\vec{x_i}, \vec{u_j}> | \hspace{2mm}i = 1, \dots ,n, j= 1, \dots ,p\} \hspace{50mm}\\
&\hspace{2mm}\\
&ここで、\\
&<\vec{x_i}, \vec{u_j}> は内積、 u_jは第\mathrm{j}主成分の固有ベクトル\\
\end{align}
[補足] 行列の対角化(固有値&固有ベクトル)の求め方
基本的に行例は対角化が可能で固有値と固有ベクトルを持つ。A = \begin{pmatrix} 3 & 1 \\ 2 & 2 \end{pmatrix} \\ det(A - \lambda I) = 0 となる固有値 \lambdaを求める。 \hspace{2mm} ここで I は単位行列。 \\ \\ A - \lambda I = \begin{pmatrix} 3 - \lambda & 1 \\ 2 & 2 - \lambda \end{pmatrix} = 0 \\ (3 - \lambda)(2 - \lambda) - 1 \times 2 = 0 \\ \lambda^2 -5\lambda + 4 = 0 \\ \therefore 固有値\hspace{2mm} \lambda = 1 , 4 \\ \hspace{2mm} \\ ・\lambda = 1 のときの固有ベクトル \vec{x} \\ \begin{pmatrix} 2 & 1 \\ 2 & 1 \end{pmatrix} \vec{x} = 0 \\ \therefore \vec{x} = \begin{pmatrix} 1 \\ -2 \end{pmatrix} \\ \hspace{2mm} \\ ・\lambda = 4 のときの固有ベクトル \vec{x} \\ \begin{pmatrix} -1 & 1 \\ 2 & -2 \end{pmatrix} \vec{x} = 0 \\ \therefore \vec{x} = \begin{pmatrix} 1 \\ 1 \end{pmatrix} \\ まとめると、 \\ A = \begin{pmatrix} 3 & 1 \\ 2 & 2 \end{pmatrix} = \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 4 \end{pmatrix} \begin{pmatrix} 1 & 1 \\ -2 & 1 \end{pmatrix} ^{-1}
テストでのポイント
- 寄与率や主成分負荷量の計算を確実に行えるようにする
判別分析
一般的に入力されたデータの特徴量の情報を用いてクラスラベルを定めるための方法。
フィッシャーの判別分析
f(x) = \hat{w}^\mathrm{T} x \hspace{2mm}-\frac{1}{2} (\bar{x}^{(1)} - \bar{x}^{(2)})^\mathrm{T} \hspace{2mm}S^{-1}\hspace{2mm} (\bar{x}^{(1)} + \bar{x}^{(2)})
\begin{align}
&\hspace{1mm}ここで、\\
&\cdot (\bar{x}^{(1)} - \bar{x}^{(2)})^\mathrm{T} \hspace{2mm}S^{-1}\hspace{2mm} (\bar{x}^{(1)} - \bar{x}^{(2)})は、マハラノビス平方XXXX \\
&\cdot S = \frac{1}{n_1 + n_2 - 2}( (n_1 - 1)S_1 + (n_2 - 1)S_2) \\
&\cdot S_jは群G_jに含まれるサンプルの標本分散共分散行列 \\
&\cdot f(x) が正ならばG_1に、負ならばG_2に分類する
\end{align}
2次判別分析
\begin{align}
g(x) \hspace{2mm}&=\hspace{2mm} D_2^2 \hspace{2mm}-\hspace{2mm} D_1^2 \\
&= (x - \bar{x}^{(2)})^\mathrm{T} \hspace{2mm}S_2^{-1}\hspace{2mm} (x - \bar{x}^{(2)}) \hspace{2mm}-\hspace{2mm} (x - \bar{x}^{(1)})^\mathrm{T} \hspace{2mm}S_1^{-1}\hspace{2mm} (x - \bar{x}^{(1)})
\end{align}
正準判別分析
- 群が2つ以上の場合の判別
- 各群の平均(重心)と各サンプル x とのマハラノビス平方距離を求め、それが最小となる群にサンプル x を分類する
SVM
- カーネル関数
\begin{align}
&\cdot 線形カーネル : x_i^\mathrm{T} x_j \hspace{130mm}\\
&\cdot 多項式カーネル : (c_1x_i^\mathrm{T} x_j + c_0)^d \\
&\cdot ガウシアンカーネル : exp(-\sigma \parallel x_i - x_j \parallel_2^{\hspace{2mm}2})
\end{align}
混同行列
\begin{align}
&\cdot正解率 : &\frac{TP + TN }{TP + TN + FP + FN}\\
&\cdot適合率 : &\frac{TP}{TP + FP} \\
&\cdot再現率(真陽性) : &\frac{TP}{TP + FN} \\
&\cdot真陰性率 : &\frac{TN}{TN + FP} \\
&\cdot偽陽性率 : &1 - 真陰性率
\end{align}
テストでのポイント
- 簡単なSVMの分類はロジックでできるようにする
- 混同行列の計算式(複数の呼び方がある用語にも注意)を覚えておく
クラスター分布
クラスラベルの情報が与えられない状況で、特徴量の類似度や距離に基づきデータをいくるかのグループに分類する方法(一方で判別分析はあらかじめクラスラベルが付与されているものをモデル化し未知の新たなデータをモデルを使って分類する)。
ミンコフスキー距離
\sum_{i = 1}^{p} (\hspace{1mm}|x_i - y_i|^m\hspace{1mm}) ^{1/m} \hspace{100mm}
マハラノビス距離
\sqrt{(x - y)^\mathrm{T} \sum_{\hspace{1mm}}^{\hspace{1mm}}\hspace{0.5mm}^{-1} (x - y)} \hspace{100mm} \\
ここで、\sum : 分散共分散行列 \hspace{100mm}
階層的手法
- 最近隣法
サンプル及び「クラスター内の最も近い距離」を比較して、近い方ものをグリープ化する。
\min_{x\in{C_1},y\in{C_2}} d(x, y)
- 最遠隣法
サンプル及び「クラスター内の最も遠い距離」を比較して、近い方ものをグループ化する。
\max_{x\in{C_1},y\in{C_2}} d(x, y)
- 重心法
\bar{x} = \frac{1}{|C_1|} \sum_{x\in{C_1}}{x}, \hspace{3mm}\bar{y} = \frac{1}{|C_2|} \sum_{y\in{C_2}}{y}
- 群平均法
\frac{1}{|C_1||C_2|} \sum_{x\in{C_1}} \sum_{y\in{C_2}}{d(x, y)}
- ウォード法
\sum_{z\in{C_1\cup C_2}}{d(z, \bar{z})^2} - \sum_{x\in{C_1}}{d(x, \bar{x})^2} - \sum_{y\in{C_2}}{d(y, \bar{y})^2}
テストでのポイント
- 最近隣法や最遠隣法を用いたクラスタリングを確実にできるようにする
- k-meansのアルゴリズムを説明できるようにする
因子分析
1因子モデル
\begin{align}
&x_{ij} = a_j f_i + d_j u_{ij} \hspace{110mm} \\
&ここで、 \\
&a:因子負荷量, f:因子スコア, d_j:独自係数
\end{align}
\begin{align}
&V[x_{ij}] = a_j^2 + d_j^2 = 1 \hspace{100mm}\\
&ここで、\\
&a_j^2:共通性、 d_j^2: 独自性
\end{align}
テストでのポイント
- 因子負荷量、共通性や独自性を算出できるようにする
- モデルグラフを描けるようにする(親となっている変数同士を結線する)
その他の多変量解析手法
二重中心化
各行、各列の和がゼロになる。
B = -\frac{1}{2} (I_n - \frac{1}{n} J_n) \hspace{1mm}D\hspace{1mm} (I_n - \frac{1}{n} J_n) \\
\begin{align}
&ここで、\hspace{100mm}\\
&D(距離行列) =
\left(
\begin{array}{ccccc}
0 & d_{12}^2 & \cdots & d_{1n}^2\\
d_{21}^2 & 0 & & d_{2n}^2 \\
\vdots & & \ddots & \\
d_{n1}^2 & \cdots & \cdots & 0
\end{array}
\right)
\end{align}
数量化法
質的データ、カテゴリー化されたデータを扱う
- 数量化Ⅰ類 : 重回帰分析
- 数量化Ⅱ類 : 判別分析
- 数量化Ⅲ類 : 主成分分析
時系列解析
自己回帰過程(AR)
\begin{align}
&AR(1) : Y_t = \phi_1 Y_{t-1} + U_t + c \\
&\hspace{1mm} \\
&E[Y_t] = \mu \\
&\mu = \frac{c}{1 - \phi_1} \\
&自己共分散 \hspace{2mm} \gamma_h = \phi_1^h \frac{\sigma^2}{1 - \phi_1^2} \\
&自己相関計数 \hspace{2mm} \rho_h = \phi_1^h
\end{align}
移動平均仮定(MA)
MA(1) : Y_t = \mu + U_t + \theta_1 U_{t-1}
- MA(1)の共分散
r_h =
\left\{
\begin{array}{ll}
(1 + \theta_1^2)\sigma^2 & (h = 0) \\
\theta_1 \sigma^2 & (h = 1) \\
0 & (x \gt 0)
\end{array}
\right.
- MA(2)の共分散
r_h =
\left\{
\begin{array}{ll}
(1 + \theta_1^2 + \theta_2^2)\sigma^2 & (h = 0) \\
(\theta_1 + \theta_1 \theta_2)\sigma^2 & (h = 1) \\
\theta_2 \sigma^2 & (h = 2) \\
0 & (x \gt 0)
\end{array}
\right.
モデルと次数の決定
自己共分散 | 偏自己共分散 | 選択モデル |
---|---|---|
2次以降ゼロ | ゆっくり減衰 | MA(1) |
3次以降ゼロ | ゆっくり減衰 | MA(2) |
ゆっくり減衰 | 2次以降ゼロ | AR(1) |
ゆっくり減衰 | 3次以降ゼロ | AR(2) |
ゆっくり減衰 | ゆっくり減衰 | ARMA(1, 1) |
スペクトラム
f(x) = \frac{1}{2\pi} \sum_{h=-\infty}^{\infty} r_h e^{-i\lambda h}
ペリオドグラム
\hat{f}(x) = \frac{1}{2\pi} \sum_{h=-T + 1}^{T - 1} \hat{r}_h e^{-i\lambda h}
ダービン・ワトソン検定(DW検定)
DWは0から4の値をとり、一般的に値が2に近いと自己相関はなく、0に近いと正の自己相関、4に近いと負の相関があると判断する。
\begin{align}
&DW \hspace{2mm}=\hspace{2mm} 2(\hspace{2mm}1 - \hat{\gamma_1} \hspace{2mm}) \hspace{100mm}\\
&\hspace{2mm}\\
&ここで、\\
&{\gamma_1}は1次の自己相関係数の推定量 \\
\end{align}
テストでのポイント
- 最近隣法や最遠隣法を用いたクラスタリングを確実にできるようにする
- k-meansのアルゴリズムを覚えておく
- DWの検定が行えるようにする(計算ではγ1を使うことに注意)
分割表
複数の「質的な変量」に関する多変量データから、変量に値の組み合わせごとの「頻度」を集計して表にしたものを分割表といい、分割表を用いて分析する。
逸脱度
G^2 = 2 log \Lambda
= 2 \times \sum 測定値 log \frac{測定値}{期待度数}
フィッシャーの正確検定
max (0, x_{1 .} + x_{. 1} - x_{..} ) \leqq x_{11} \leqq min (x_{1 .}, x_{. 1}) \\
P(X_{11} = x_{11}) = \frac{x_{1.}! x_{2.}! x_{.1}! x_{.2}!}{x_{..}!} \cdot \frac{1}{x_{11}! x_{12}! x_{21}! x_{22}!} \hspace{3mm},\hspace{3mm} x_{11},x_{12},x_{21},x_{22} \hspace{1mm}\geqq\hspace{1mm} 0
テストでのポイント
- ARやMAの特徴やモデルの選択を行えるようにする
- DWの検定が行えるようにする(計算でγ1を使うことに注意)
不完全データの統計処理
- CC(Complete Case)解析
すべての変量が観測されている個体のみを用いて解析する - AC(Available Case)解析
当該変量の使えるデータは全部使う(補完法nより欠損箇所に何らかの代入する)
欠損メカニズム | 補完法 | 平均 | 標準偏差 | 相関係数 |
---|---|---|---|---|
MAR | 平均値代入 | 過小評価は改善されない | さらに過小評価 | 適切なものとは言い難い |
同上 | 回帰代入 | 過小評価が改善される | 過小評価は残る | 過大評価となる |
MCAR | 平均値代入 | 平均に影響はない | 過小評価になる | |
同上 | 回帰代入 | 平均に影響はない | 平均値代入ほどではないが過小消化となる |
- MCAR(Missing Completely At Random)
欠測があまり多くなければという条件つきで、CC(Complete Case)解析が妥当な結果を与える(補完する必要はなく、補完することでむしろ悪影響が出る恐れがある)。 - MAR(Missing At Random)
CC解析及び平均値代入は結果に偏りをもたらす可能性がある。 - MNAR(Missing Not At Random)
上記いずれの対処法もよい結果を与えるという保証がなく、欠測となった理由ごとの個別対応が必要となる。
テストでのポイント
- 欠損メカニズムと補完法のメリット・デメリットを上記表をベースに覚える
モデル選択
AIC(Akaike infomation criterion)
\begin{align}
&AIC = -2logL + 2k \\
&\hspace{10mm} \\
&重回帰の場合 \\
&AIC = n \biggl(logS_e + log\biggl(\frac{2\pi}{n} \biggr) + 1 \biggr) +2(\hspace{1mm}p + 2\hspace{1mm}) \\
&\hspace{10mm} \\
&F統計量 : \frac{S_e^{(k)} - S_e^{(k + 1)}}{\frac{S_e^{(k + 1)}}{(n - k -2)} } \hspace{3mm} > \hspace{1mm} 2
\end{align}
BIC(Bayesian information criterion)
\begin{align}
&BIC = -2logL + k\hspace{1mm}log \hspace{1mm}n \\
&\hspace{10mm} \\
&重回帰の場合\\
&BIC(k) = n \biggl( logS_e^{(k)} + log\biggl(\frac{2\pi}{n}\biggr) + 1 \biggr) + (k+2)log \hspace{1mm}n
\end{align}
テストでのポイント
- 計算式を覚えてAICやBICを計算し選択できるようにする
ベイズ法
ベータ2項モデル
\begin{align}
&事後分布 : Be(a + x, \hspace{1mm}b + (n - x)) \hspace{10mm}\\
&MAP = \frac{a - 1}{(a + b) - 2}
\end{align}
ガンマ・ポアソンモデル
\begin{align}
&事後分布 : Ga = ( a + \sum{x_i} , \hspace{1mm} \frac{1}{(\lambda + n)} ) \hspace{10mm} \\
&ここで、 x_i = [x_1, \dots, x_n] \\
&MAP = \frac{a - 1}{ \lambda}
\end{align}
テストでのポイント
- ベイズ法による事後分布やMAP推定量を計算できるようにする
シミューレーション
ジャックナイフ推定量
\hat{Se}_{jack} = \sqrt{\frac{n - 1}{n} \sum_{j=1}^{n} (\hat{\theta}_{(j)} - \bar{\hat{\theta}}_{(\cdot)} ) ^2 }
\hat{Se}_{B} = \sqrt{\frac{1}{B - 1} \sum_{b=1}^{B} (\hat{\theta}^{*}_{(b)} - \bar{\hat{\theta}}^{*} ) ^2 }
おわりに
本書が統計学基礎の理解の促進、及び統計検定準1級取得のお役に立てれば幸いです。
また、NPO法人AI開発推進教会では、さまざまなディープラーニングのモデルの解説書を作成して公開しています。
ディープラーニングにもご興味がありましたらご参照ください。