いよいよ今週末に統計検定2級を受験します。そんなに構えるほど大変な資格でもない・・・という方もいらっしゃると思いますが、自分は結構時間をかけて勉強を進めてきました。テキスト、過去問と繰り返しやってとうとう今週末に試験を受ける事を決意しました。
そんな中で最後に見直しするべきところをまとめておいて、自分自身を鼓舞したいと思います。同様な意見をお持ちの方に役にたてれば幸いです。
チェビシェフの不等式
確率変数の分布の形はどのようなものでも良い
$$
X \sim (\mu, \ \sigma^2)
$$
平均と分散を使って基本形をかく
$$
P(X-\mu \geq k\sigma) \leq \frac{1}{k^2} \ , \quad (k>0)
$$
$k\sigma = \varepsilon$ として式を書き換える
$$
P(X-\mu \geq \varepsilon) \leq \frac{\sigma^2}{\varepsilon^2}
$$
$1- P$ の確率にするために符号の向きを変える
$$
P(X-\mu \lt \varepsilon) \gt 1 - \frac{\sigma^2}{\varepsilon^2}
$$
標本平均の分布について考える
$$
\bar{X} \sim (\mu, \ \sigma^2 / n)
$$
チェビシェフの不等式は以下のようになる
$$
P(X-\mu \lt \varepsilon) \gt 1 - \frac{\sigma^2}{n \varepsilon^2}
$$
$n \rightarrow \infty$ をとると確率は $1$ に収束し、一致推定量となる
$$
\lim_{n \rightarrow \infty } P(X-\mu \lt \varepsilon) \gt 1 - \frac{\sigma^2}{n \varepsilon^2} \rightarrow 1
$$
1元配置分散分析
因子 $A$ のすべての水準の平均が等しいという帰無仮説 $H_0$ を検定する方法
要因 | 平方和 | 自由度 | 平均平方 | $F$ 値 |
---|---|---|---|---|
級間 | $S_A$ | $\nu_A = a-1$ | $V_A = S_A/ \nu_A$ | $F = V_A / V_e$ |
残差 | $S_e$ | $\nu_e = n-a$ | $V_e = S_e/ \nu_e$ | - |
総 | $S_T=S_A+S_e$ | $\nu_T = \nu_A+\nu_e$ | - | - |
総平方和と自由度
$$
S_T = \sum_i \sum_j (y_{ij} - \bar y_{\cdot \cdot})^2 \ , \ \nu_T = n-1
$$
残差平方和と自由度
$$
S_e = \sum_i \sum_j (y_{ij} - \bar y_{i \cdot})^2 \ , \ \nu_e = n-a
$$
級間平方和と自由度
$$
S_A = \sum_i n_j (\bar y_{i \cdot} - y_{\cdot \cdot})^2 \ , \ \nu_A = a-1
$$
$F_{\alpha}(\nu_A, \nu_e) \lt F値$ であれば $H_0$ は棄却され、平均に差があるといえる
$\chi^2$ 分布
$\chi^2$ 分布は $Z^2$ の総和により定義される
$$
\chi^2 = Z_1^2 + Z_2^2 + \cdots + Z_k^2 \sim \chi^2(k)
$$
不偏分散 $\hat{\sigma}^2$ を使って書き換えることができる
$$
\chi^2= \frac{\sum(X_i - \bar{X})^2}{\sigma^2} = \frac{(n-1)\hat{\sigma}^2}{\sigma^2}
$$
$\chi^2$ 統計量はいくつかの検定に使われる
母分散に対する検定
$H_0 : \sigma = \sigma_0$ による両側、片側の仮説検定
$$
H_1 : \sigma \neq \sigma_0 \ \rightarrow
\chi^2_{1-\alpha/2}(n-1) \leq \chi^2 \leq \chi^2_{\alpha/2}(n-1)
$$
$$
H_1 : \sigma \gt \sigma_0 \ \rightarrow \ \chi^2 \leq \chi^2_{\alpha/2}(n-1)
$$
適合性の検定
仮定された理論上の確率分布による理論度数(期待度数)と観測度数を比較して検定を行う
月 | 火 | 水 | 木 | 金 | 土 | 合計 | 理論度数 | |
---|---|---|---|---|---|---|---|---|
観測度数 | 14 | 19 | 15 | 22 | 16 | 16 | 102 | 102/6 = 17 |
$$
\chi^2 = \frac{(14 - 17)^2}{17} + \frac{(19 - 17)^2}{17} + \cdots + \frac{(14 - 16)^2}{17}
$$
$$
\chi^2 = \sum_{i=1}^k \frac{(f_i - np_i)^2}{np_i} \sim \chi^2(k-1)
$$
独立性の検定
観測度数と理論度数を比較して検定を行う
季節と風向きに関する観測度数表 $F_{ij}$
$i↓ / j→$ | 風向:北 | それ以外 | 計 |
---|---|---|---|
冬期 | 105 | 15 | 120 |
それ以外 | 102 | 143 | 245 |
計 | 207 | 156 | 365 |
季節と風向きが独立としたときの理論度数表 $f_{ij}$
$i↓ / j→$ | 風向:北 | それ以外 | 計 |
---|---|---|---|
冬期 | 68.05 | 51.95 | 120 |
それ以外 | 138.95 | 106.05 | 245 |
計 | 207 | 156 | 365 |
下の式で $\chi^2$ 統計量を求めて、パーセント点と比較する
$$
\chi^2 = \sum_i \sum_j \frac{(F_{ij} - f_{ij})^2}{f_{ij}} \sim \chi^2((m-1)(n-1))
$$
ベイズの定理
ベイズの定理の基本式は以下となる
$$
P(H_i | A) = \frac{P(H_i \cap A)}{P(A)} = \frac{P(H_i)P(A | H_i)}{P(A)}
$$
$P(H_i | A)$ を事前確率といい、$P(H_i)$ を事後確率という
ここで加法定理について確認しておく
$$ P(H_i \cap A) = P(A)P(H_i | A) $$
$$ P(A \cap H_i) = P(H_i)P(A | H_i) $$
$P(H_i)$ をいくつかの事象の起きる確率とし、独立を前提として考えると以下のように書くことができる
$$ P(A) = P(A \cap H_1) + P(A \cap H_2) + \cdot + P(A \cap H_n) $$
この式について加法定理を使って書き換える
$$
\begin{align}
P(A)
&= P(H_1)P(A | H_1) + P(H_2)P(A | H_2) + \cdot + P(H_n)P(A | H_n) \
&= \sum P(H_i)P(A | H_i)
\end{align}
$$
以上よりベイズの定理は以下の式に書き換えることができる。
分母は事象 $A$ の起きる確率を示し、分子は $H_i$ により 事象 $A$ が起きる確率を示している
$$
P(H_i | A) = \frac{P(H_i)P(A | H_i) \cdot }{\sum P(H_j)P(A | H_j)}
$$
抽出法のまとめ
単純無作為抽出法
各要素が選ばれる確率が等しく、各要素が同じ確率で選ばれるだけなので手順がシンプルです。さらに選ばれる要素が $n$ 個であれば、各要素の確率は $1/n$1 となり計算がかんたんとなります。
注意点もあり、単純無作為抽出法は、母集団が均一であることを前提としており、母集団が異なるサブグループに分かれている場合、その特性を適切に反映できない可能性があります。また、「偏り」が発生し、特定のグループが過剰または不足して選ばれる可能性があります。
実施の難しさもあり、大規模な母集団からサンプルを抽出すると、効率が低くなることがあります。
系統抽出法
抽出の際にある一定の間隔でサンプルを抽出し、母集団がランダムに配置されていると仮定すると、系統抽出はランダムサンプリングの代替手段となります。
系統抽出の場合、選ばれる確率が分かりやすいです。例えば、母集団が100人で10人を選ぶ場合、1人あたりの確率は1/10となります。
注意点もあり、もし母集団内で周期性がある場合、系統抽出によって偏りが生じる可能性があります。外部要因(例: 曜日、時間帯)による周期性も同様です。母集団に特定のパターンがある場合も、それがサンプリングに影響を与える可能性があります。
層化抽出法
母集団が異なる特性を持つ複数の層に分かれている場合、層化抽出法は各層を考慮してサンプリングを行うため、どのように層を選択するかが重要です。
層ごとのバラつきを考慮することで、全体の精度を向上させることが期待されます。特定の層が全体の分散に大きく寄与する場合、層化抽出法は有益です。
一方で、層の選択の難しさや、層ごとに変動が大きく異なる場合、その不均一性を反映します。計算が複雑になることがあります。特に多層の場合、計画と実施が煩雑になる可能性があります。
多段抽出法
県 → 市 → 学校 → クラス → 生徒 等と段ごとにある確率で抽出を行う
母集団を複数の段階に分割し、各段階でクラスターを形成します。全ての要素を一度にサンプリングするよりも、クラスターごとにサンプリングすることで、調査の効率を向上させることが期待されます。
注意点もあり、クラスター内の要素が類似している場合や、クラスターが異質である場合、「偏り」により全体の特性を正確に反映しないことがある。
また、多段抽出法は計画と実施が複雑になることがあるうえ、データ解析においても複雑になる可能性があります。
クラスター抽出法
クラスター全員を対象とする、多段抽出法です。
変動係数
分布が右裾が大きい場合などは、分散では分布の散らばり具合を比較できないため、変動係数を用います。
$$ CV = \frac{\sigma}{\bar{x}} $$
例 所得の比較
Ex. | 1965年 | 1975年 |
---|---|---|
所得平均 $\bar{x}$ | 26.6 万円 | 117.5 万円 |
分散 $\sigma$ | 7.5 万円 | 23.8 万円 |
変動係数 $CV$ | 0.28 | 0.20 |
この変動係数より、相対的に差(ここでは格差)は小さくなっていることがわかる
回帰分析
回帰分析をする際に使う式
$$
Y_i = \beta_1 + \beta_2 X_i + \varepsilon_i
$$
回帰分析の式における残差 $\varepsilon_i$ の性質
$$
\varepsilon_i \rightarrow E[\varepsilon_i] = 0 , \ V[\varepsilon_i] = \sigma^2, \ Cov[\varepsilon_i, \varepsilon_j] = 0
$$
$Y_i$ の期待値は以下のように書ける
$$
E[Y_i] = \beta_i + \beta_2 X_i
$$
残差により値を移行する
$$
\varepsilon_i = Y_i - (\beta_1 + \beta_2 X_i)
$$
残差の2乗の総和を $S$ とする
$$
S = \sum \varepsilon_i^2 = \sum {Y_i - (\beta_1 + \beta_2 X_i)}^2
$$
$S$ に関して偏微分し、最小二乗法を用いて計算をする
$$
\frac{\partial S}{\partial \beta_1} = -2 \sum (Y_i - \beta_1 - \beta_2 X_i) = 0
$$
$$
\frac{\partial S}{\partial \beta_2} = -2 \sum (Y_i - \beta_1 - \beta_2 X_i)X_i = 0
$$
以下のような正規方程式が得られる
$$
\begin{cases}
n \beta_1 + (\sum X_i)\beta_2 = \sum Y_i \
(\sum X_i)\beta_1 + (\sum X_i)^2\beta_2 = \sum X_i Y_i
\end{cases}
$$
正規方程式を解くと推定値 $\hat{\beta_1}, \ \hat{\beta_2}$ が得られる
$$
\hat{\beta_2} = \frac{\sum (X_i - \bar{X}) (Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}
$$
$$
\hat{\beta_1} = \bar{Y} + \beta_2 \bar{X}
$$
$\hat{\beta_1}, \ \hat{\beta_2}$ により表したものを標本回帰方程式という
$$
Y = \hat{\beta_1} + \hat{\beta_2} X
$$
また、観測地と推定値の差を回帰残差という
$$
\hat{e_i} = Y_i - \hat{Y_i}
$$