0. はじめに
大学1年生の際に勉強した基礎統計の復習を兼ねて統計検定2級を受験(合格)してきたので、検定を受けるにあたり把握しておいた方がいいと思う内容を以下にまとめます。例えば箱髭図などはあえて取り上げるまでもない部分ですので、そういったものは省略しておりますのでご了承ください。
なお、記載事項が過去問(2021年まで開催されたPBTの過去問に)で問われている場合はどの過去問かについても一部ですが記載します。2022年12月現在、統計検定は1級以外はCBTとなっておりますがCBTの過去問は公開されていません。私は2016年6月から2021年6月分の統計検定2級過去問を解きましたが、CBTの問題に関しては(詳細は言えませんが)この期間のPBTの問題の傾向とは必ずしも一致していなかったように思えます。他のブログなどを読むと2011年から2015年ごろの問題に近いという意見もありますので、当時の過去問を入手して対策するのがいいと思います。私個人としては、近年のPBTの過去問は公開されるということもあってか、出題者からのメッセージ性を感じた問題であったと思います。たとえば、第1種過誤や第2種過誤とかちゃんと理解してる?とか、カイ2乗分布とt分布とF分布の関係性ちゃんと理解してる?といった気持ちが出題者から聞こえてきて非常に良い問題だなと感じていました。今回初めてCBTを受けましたが、そこまでのメッセージは伝わって来ず、問題を解いててワクワク感というか、出題者と対話しているという感じを受けなかったのが残念です。PBTの問題は現行のCBTの問題とは傾向は必ずしも同じではないかもしれませんが、合格するだけであれば、手に入る直近のPBTの問題をしっかりと勉強するだけでも十分だと思います。
本記事の内容については間違っている場合は編集依頼をいただけましたら幸いです。また、改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎の章立てをベースにしており、記号も依っていますので、こちらの本を片手に見ていただくのがいいのではないかと思います。統計学基礎は、統計計検定2級の内容を網羅的に説明してくれていて非常に良い本だと思いますが、もう少し整理の仕方を上手くできるのになというところや、大事なところが注釈になっていたり、一緒に過去問を解いていくことで大事なところがわかるようになっています。私は、統計学基礎と過去問だけで勉強しました。
また、最終チェックとして統計検定2級必須事項穴埋めも用意しましたのでこちらもご活用いただければ幸いです。
1. データの記述と要約
ラスパイレス価格指数
基準時点を$t=0$とし、比較時点を$t=\pm{1},\pm{2},\cdots$時点とし、$t$時点の第$i$番目の価格、数量を$p_{ti}, q_{ti}$とする。
\begin{align}
P_{L(0,t)} &= \frac{\sum_i w_i(p_{ti}/p_{0i})}{\sum_i w_i}\\
&= \frac{\sum p_{ti}q_{ti} }{\sum_i w_i}, \quad w_i = p_{0i}q_{0i}
\end{align}
- 過去問:2017年11月問4、2018年11月問4
パーシェ指数
\begin{align}
P_{L(0,t)} &= \left(\sum_i s_{ti}\left(\frac{p_{ti}}{p_{0i}}\right)\right)^{-1},\quad s_{ti}=\frac{p_{ti}q_{ti}}{\sum_j p_{tj} q_{tj}}\\
&= \left(\sum_i \frac{p_{0i} q_{ti}}{\sum_j p_{tj}q_{tj}}\right)^{-1}
\end{align}
- 過去問:2021年6月問4
ジニ係数
- 完全平等線と弧の形で描かれたローレンツ曲線で囲まれた面積の割合の2倍。
- 2倍であることを忘れがちなので覚えておく。
- $0$に近いほど平等で$1$に近いほど不平等。
- 過去問:2018年6月問3
時系列データ
- 傾向変動:基本的な長期にわたる動きを表す変動
- 季節変動:1年を周期として循環を繰り返す変動
- 不規則変動:傾向変動・不規則変動以外の変動。規則的ではない変動。
- 過去問:2019年11月問4
歪度・尖度
- モーメントを$\mu_k = E[(X-\mu)^k]$とした時、歪度は$\frac{\mu_3}{3}$、尖度は$\frac{\mu_4}{4}-3$で定義される。
- 歪度は分布の非対称性を表し、尖度は、裾の長さを表す指標。
- 正規分布は歪度、尖度ともに$0$
- 歪度は右に裾が長い場合は正、左に裾が長い場合は負
- 尖度は正規分布より裾が長い場合は正、裾が短い場合は負
- t分布は歪度$=0$、尖度$>0$
- 過去問:2018年11月問11、2019年11月問11
2. 確率と確率分布
独立と排反
事象$A$と事象$B$が独立であるとは
P(A\cap B) = P(A)P(B)
事象$A$と事象$B$が排反であるとは
P(A\cap B) = P(\emptyset) = 0
- 過去問:2019年6月問7
条件付き確率
P(B|A) = \frac{P(A\cap{B})}{P(A)}
- 過去問:2017年11月問7、2018年11月問7、2019年11月問8
ベイズの定理
\begin{align}
P(H_i|A) &= \frac{P(H_i\cap{A})}{P(A)} \\
&= \frac{P(H_i)P(A|H_i)}{P(A)}\\
P(A) &= P(A\cap{H_1}) + ・・・ + P(A\cap{H_n}) \\
&= P(H_1)P(A|H_1) + ・・・ + P(H_n)P(A|H_n) \\
&= \sum_{i=1}^{n}P(H_i)P(A|H_i) \\
P(H_i|A) &= \frac{P(H_i)P(A|H_i)}{\sum_{i=1}^{n}P(H_i)P(A|H_i)}
\end{align}
- 過去問:2016年11月問7
確率密度関数と分布関数(累積分布関数)
確率密度関数$f(x)$のとき、
\int_{-\infty}^{\infty}f(x)dx = 1\quad(確率の公理)
分布関数$F(x)$は、
F(x) = P(X\leq x)=\int_{-\infty}^{x}f(u)du
累積分布関数が連続で微分可能ならば、その導関数は確率密度関数に等しい。
\frac{dF(x)}{dx}=f(x)
- 過去問:2016年6月問8
平均
\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i\\
期待値
E[X] = \int_{-\infty}^{\infty}xf(x)dx
- 過去問:2019年11月問9
分散
\begin{align}
離散確率分布の場合\\
s^2 &= \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2 \\
連続確率分布の場合\\
s^2 &= E[X^2] - E[X]^2 = \int_{-\infty}^{\infty}x^2f(x)dx - \left(\int_{-\infty}^{\infty}xf(x)dx\right)^2
\end{align}
- 過去問:2016年11月問10、2017年11月問8、2018年11月問10
標準偏差
s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2}
標準化得点、標準得点、z得点
- 正規分布の標準化($ z=\frac{x-\mu}{\sigma} $)と同じ
\frac{x_i - \bar{x}}{s} = \frac{個々の観測値-平均}{標準偏差}
変動係数
CV = \frac{s}{\bar{x}} = \frac{\sigma}{\mu}
分散、共分散、相関係数
- ピアソンの積率相関係数$r_{xy}$
\begin{align}
r_{xy} &= \frac{s_{xy}}{s_{x}s_{y}}\\
分散 s_x &= \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2,\quad s_y = \frac{1}{n}\sum_{i=1}^{n}(y_i-\bar{y})^2\\
共分散 s_{xy} &= \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})
\end{align}
- 過去問:2019年6月問2,2021年6月問6
\begin{align}
V[X] &= E[X^2] - E[X]^2\\
V[aX+bY+cZ] &= a^2V[X] + b^2V[Y] + c^2V[Z] \\ &+ 2abCov[X,Y] + 2bcCov[Y,Z] + 2caCov[Z,X]\\
\end{align}
X, Y, Zが互いに独立の場合は、$Cov[X,Y]=Cov[Y,Z]=Cov[Z,X]=0$となる。
Cov[X, Y] \equiv E[(X-\mu_x)(Y-\mu_y)] = E[XY] - E[X]E[Y]\\
\rho_{xy} \equiv \frac{Cov[X,Y]}{\sqrt{V[X]V[Y]}}
- 過去問:2016年11月問8、2017年6月問6,問9、2018年6月問9、2019年6月問9
離散確率分布
ベルヌーイ分布
- ベルヌーイ試行(2通りにしかならない確率実験のこと。例:コイン投げ)の結果を0と1で表した分布。
f(k) = p^k(1-p)^{1-k}, k=0,1\\
P(X=1) \equiv f(1) = p\\
P(X=0) \equiv f(0) = 1-p\\
\begin{align}
\mu &= E[X] = 1\times p + 0\times(1-p) = p \\
\sigma^2 &= E[X^2] - E[X]^2 = 1^2\times p + 0^2\times(1-p) - p = p(1-p)
\end{align}
- 過去問:2016年11月問12
二項分布
- 成功確率pのn回のベルヌーイ試行を行った時のある事象の成功回数X=xに対する確率分布。
- 例:コインを5回投げた時に表が3回出る確率
\begin{align}
f(x) &= {}_n \mathrm{C}_x p^x(1-p)^{n-x}\\
E[X] &= np\\
E[X(X-1)] &= n(n-1)p^2\\
V[X] &= np(1-p)\\
\end{align}
- 2016年6月問10
ポアソン分布
- 二項分布において、$np$を固定し$\lambda$ とおき、$np=\lambda$のままでを$n \rightarrow \infty$、$p \rightarrow 0$にした場合の二項分布。
- 例:工場における不良品の発生率(工場においては製造する製品の数が非常に大きく、不良品の数は非常に少ない)
\begin{align}
f(x) &= {}_n \mathrm{C}_x \left(\frac{\lambda}{n}\right)^x\left(1-\frac{\lambda}{n}\right)^{n-x}\\
&\rightarrow \frac{e^{-x}\lambda^x}{x!} (x = 0, 1, 2, ...)\\
E[X] &= \lambda\\
E[X(X-1)] &= \lambda^2\\
V[X] &= E[X(X-1)] + E[X] - E[X]^2 = \lambda^2 + \lambda - \lambda^2 \\
&= \lambda
\end{align}
- 過去問:2016年11月問9、2017年11月問11
幾何分布
- 成功の確率が$p$であるベルヌーイ試行を初めて成功するまで繰り返したときの試行回数Xの確立分布。
\begin{align}
f(x) &= p(1-p)^{x-1}\\
E[X] &= \frac{1}{p}\\
V[X] &= \frac{1-p}{p^2}\\
\end{align}
- 過去問:2021年6月問12、2019年6月問10
連続確率分布
一様分布
- 次式$f(x)$で表される分布を一様分布と呼び、$U(a,b)$と表す。
\begin{align}
f(x) &= \left\{
\begin{array}{ll}
\frac{1}{b-a}\quad(a\leq x\leq b)\\
0\quad(そのほか)
\end{array}
\right. \\
E[X] &= \int_{a}^{b}\frac{x}{b-a}dx=\frac{a+b}{2}\\
V[X] &= E[X^2] - E[X]^2 = \int_{a}^{b}\frac{x^2}{b-a}dx-\left(\frac{a+b}{2}\right)^2 \\
&= \frac{(b-a)^2}{12}
\end{align}
- 過去問:2018年11月問11[2]
正規分布
正規分布の性質
- 以下の説明において$\sim$は左辺の式が右辺の分布に従うことを意味する。つまり、$X \sim N(\mu, \sigma^2)$の表記は確率変数$X$が平均$\mu$, 分散$\sigma^2$の正規分布に従うということを表す。
- $X \sim N(\mu, \sigma^2) \Rightarrow aX+b \sim N(a\mu+b, a^2\sigma^2)$
- 標準化 : $Z = (X-\mu)/\sigma \sim N(0,1) $
- $X$と$Y$が独立で、$X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$の場合、$X+Y \sim N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)$
- $X_i \sim N(\mu_i, \sigma_i^2)$のとき、
\begin{align}
S_n &= X_1 + \cdots + X_n \sim N\left(\sum_{i=1}^n\mu_i, \sum_{i=1}^n\sigma_i^2\right)\\
\bar{X} &= \frac{S_n}{n} \sim N\left(\mu, \frac{\sigma_i^2}{n}\right)\\
L &= a_xX_1 + \cdots + a_nX_n \sim N\left(\sum_{i=1}^na_i\mu_i, \sum_{i=1}^na_i^2\sigma_i^2\right)
\end{align}
- 過去問:2017年6月問9、2017年11月問10、2018年6月問8、2019年6月問11
標本分布
カイ2乗分布
W = Z_1^2 + \cdots + Z_n^2 \quad (ただし、Z_i \sim N(0,1))\\
W \sim \chi^2(n)\\
E[W] = n, \quad V[W] = 2n
- 母分散の区間推定や検定、適合度の検定、独立性の検定で用いられる。
- 過去問:2017年6月問10
t分布
t = \frac{Z}{\sqrt{W/n}} \quad (ただし、Z \sim N(0,1), Wはカイ2乗分布ででてきたWで、ZとWは独立。)\\
t \sim t^2(n)
- 過去問:2019年6月問12
- 母平均の区間推定や検定で利用される
F分布
F = \frac{W_1/m_1}{W_2/m_2} \quad (ただし、W_1 \sim \chi^2(m_1), W_2 \sim \chi^2(m_2))
- F分布に関しては、以下の2つの性質を利用した問いもよくある。
- $F = t^2$ (F値はt値の2乗)
- $X \sim F(m_1, m_2)$のとき、$1/F \sim F(m_2, m_1)$(確率変数XがF分布に従う時、Xの逆数はFの第1引数と第2引数を入れ替えたF分布に従う)
- $F$分布の上側パーセント点の表では、$\alpha=0.05, 0.025$の表しか与えられていないことがあるので、例えば$\alpha=0.975$のF値は求める必要がある。$m=5,n=10$とし、$F_{0.975}(5,10)$の値を求めたいとする。このとき、$P(X\geq a)=0.975$となるような$a$の値を求めれば良い。$P(X\geq a) = 0.975 \Leftrightarrow P(X < a) = 0.025 \Leftrightarrow P(\frac{1}{X} > \frac{1}{a}) = 0.025$であり、$X$が$F(5,10)$に従うとき$1/X$は$F(10,5)$に従うので、 $F$分布の上側パーセント点の表の$F_{0.025}(10,5)$より$\frac{1}{a} = 6.619$となり、$a=0.151$、つまり、$F_{0.975}(5,10)=0.151$となる。
- すなわち、$F_{1-\alpha}(m,n)=\frac{1}{F_{\alpha}(n,m)}$
- 母分散の比の区間推定や検定、線形回帰モデルの回帰の有意性検定、1元配置分散分析で用いられる。
- 過去問:2018年6月問12
- 過去問:2017年11月問9(カイ2乗分布、t分布、F分布の関係について)
大数の法則
$X_1, \cdots, X_n$が互いに独立に平均$\mu$, 分散$\sigma^2$に従うとき、平均
\bar{X} = \frac{X_1+\cdots+X_n}{n}
の期待値 $E[\bar{X}] = \mu$、分散 $V[\bar{X}] = \frac{\sigma^2}{n}$となる
$\rightarrow$標本の大きさnを大きくすると標本平均の値は母平均に近づく。
中心極限定理
$X_1, \cdots, X_n$が互いに独立に平均$\mu$, 分散$\sigma^2$に従うとき、
z = \frac{\bar{X}-\mu}{\sigma / \sqrt{n}}
の分布は$n\rightarrow \infty$にすると標準正規分布$N(0,1)$に近づく。
$\rightarrow$標本の大きさnを大きくすると標本平均の分布は正規分布に近づく。
3. 統計的推定
なぜ推定が必要か
大きな数の集団の分析を行う際、全てを調査するのは現実的では無い。集団の中から適切な抽出方法で、調査可能な数を抽出する。これを標本と呼ぶ。標本は全数ではないので、母集団の平均や分散とは必ずしも一致しない。標本から得られた標本平均や標本分散の値の確らしさを数学的に表現するために推定が必要となる。
抽出方法
説明 | |
---|---|
単純無作為抽出法 | くじ引きや乱数表などを用い、母集団から必要なサンプル数を無作為に選択し、調査対象として抽出する。各個体が標本として選択される確率が$n/N$、母集団においてどのn個の個体の組も選択される確率が等しく$1/{}_N \mathrm{C}_n でなければいけない。 |
系統抽出法(等間隔抽出法) | 母集団の個体すべてに番号をつけ、第1番目の個体を無作為に抽出し、第2番目以降は番号について同じ間隔で抽出する。母集団の並び方に周期性がある場合は精度が落ちる。実施には母集団全体の名簿が必要。 |
層化無作為抽出法 | 母集団が異なるいくつかの種類または層(性別、年代別、職業別など)に層別される場合、各層から層ごとにランダムに抽出する。層内はできるだけ均質であるように設計する。分散は、単純無作為抽出法よりも小さくなるとは言えない。各層から抽出する標本の配分については、いくつかあるが、各層の大きさに比例配分させることが多い。 |
多段抽出法 | 第1次抽出単位をある確率で抽出し、その中からさらにある確率で第2次抽出単位を抽出する。例:各県から学校を抽出、学校からクラスを抽出。クラスから生徒を抽出。段数が多くなると平均などの推定精度は悪くなる。大規模調査において単純無作為抽出法における母集団リストの作成、地理的に調査対象が散らばった際の調査費用・労力・管理コストの削減を目的とする。 |
クラスター(集落)抽出法 | 母集団を網羅的に分割し小集団(クラスター)を構成する。いくつかのクラスターを抽出し、その成員全員を対象者とする。クラスターごとの名簿があれば時間と費用が節約できるが精度が低下する。 |
- 参考
-
標本抽出法の違いを図と例でまとめる
過去問:2016年6月問6、2016年11月問5、2017年11月問5、2018年6月問6、2018年11月問5、問6、2019年6月問6、2019年11月問6、2021年6月問7
-
標本抽出法の違いを図と例でまとめる
フィッシャーの3原則
- 無作為化
- 処理を無作為(ランダム)に割り付けること。無作為化により、制御できない要因の影響を偶然誤差に転化することができる。
- 繰り返し
- 反復により、偶然誤差の大きさを評価することができる。例えば、区間推定において、t値は自由度が大きくなればなるほど値は小さくなり、母分散が不明の場合の母平均の区間推定の幅$2t(n-1)\frac{\hat{\sigma}}{\sqrt{n}}$の分母に$\sqrt{n}$があることから、nが大きくなると区間推定の幅も小さくなることがわかる。
- 局所管理
- 実験の場をできる限り均一に保つように管理されたいくつかのブロックに分けて実験を行うこと。できるだけ処理効果以外のばらつきを小さくする。ブロックの設定は同じブロック内では均一に、異なるブロック間では違いは大きめに設定するのが原則。
- 過去問:2016年11月問6、2018年6月問5、2019年6月問5
一致推定量
ある母数$\theta$の推定量$\hat{\theta}$が任意の$\theta$に対して$\hat{\theta}$が$\theta$に確率収束する時(標本数$n$を無限にした時に、$\hat{\theta}$が$\theta$となる)、$\hat{\theta}$は一致推定量。
不偏推定量
推定量$\hat{\theta}$の期待値が母数の値$\theta$と等しくなるような推定量。$E[\hat{\theta}] = \theta$
- 母平均$\mu$の不偏推定量:$\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i$
- 理由:$E[\bar{x}]=\frac{1}{n}\sum E[x_i]=\frac{1}{n}\sum \mu=\mu$
- 標本平均$\bar{x}$が母平均$\mu$の不偏推定量。
- 母分散$\sigma^2$の不偏推定量:$\hat{\sigma}^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
- $\hat{\sigma}^2$を不偏分散と呼ぶ。
- 一致推定量が不偏推定量になるとは必ずしも限らない。
- 標本分散$\frac{1}{n}\sum(x_i-\bar{x})^2$は母分散の一致推定量であるが、不偏推定量ではない。不偏推定量は、不偏分散$\hat{\sigma}=\frac{1}{n-1}\sum(x_i-\bar{x})^2$
- 過去問:2016年11月問11[2]、2018年11月問12
母平均の区間推定(1標本問題)
- 信頼区間の幅は信頼係数が大きいほど広くなる。すなわち、95%信頼区間は90%信頼区間の幅よりも広い。
母分散が既知のとき
z = \frac{\bar{x}-\mu}{\sigma / \sqrt{n}} \\
\bar{x} - z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{x} + z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}
- 95%信頼区間の場合は、$\alpha=0.05$であり、$z_{0.025}=1.96$となる。
母分散は未知だがnが大きいとき
- 中心極限定理より、観測値から得られた標準偏差$\hat{\sigma}$を母分散が既知の時の式の$\sigma$に代用して良い。
- 過去問:2017年6月問12[2][3]
母分散が未知のとき
- t分布を利用する
- 標準誤差が$se(\bar{x}) = \frac{\hat{\sigma}}{\sqrt{n}}$であることも頭に入れておくと良い。
t = \frac{\bar{x}-\mu}{\hat{\sigma} / \sqrt{n}}\\
\bar{x} - t_{\frac{\alpha}{2}}(n-1)\frac{\hat{\sigma}}{\sqrt{n}} \leq \mu \leq \bar{x} + t_{\frac{\alpha}{2}}(n-1)\frac{\hat{\sigma}}{\sqrt{n}} \\
\bar{x} - t_{\frac{\alpha}{2}}se(\bar{x}) \leq \mu \leq \bar{x} + t_{\frac{\alpha}{2}}se(\bar{x})
- ただし、上記の式は$n$が小さい場合には注意が必要で、$n$が小さい場合に上式が成り立つのは、標本$x_1, \cdots, x_n$が厳密に正規分布に従う場合であり、非正規母集団から無作為抽出した標本ではなりたたない。$n$が十分大きい場合は、母分散は未知だがnが大きいときのケースを当てはめ、$\frac{\bar{x}-\mu}{\hat{\sigma}/\sqrt{n}}$は標準正規分布で近似できる。これに関する問が2019年11月問14で出題されている。
- 過去問:2016年6月問11[1][2]、2018年6月問10[2]
母分散の区間推定(1標本問題)
- カイ2乗分布は左右非対称なので、$\chi_{\frac{\alpha}{2}}^2(n-1)$と$\chi_{1-\frac{\alpha}{2}}^2(n-1)$をそれぞれ見る必要がある。
\chi^2 = \sum\left(\frac{x_i-\bar{x}}{\sigma}\right)^2=\frac{(n-1)\hat{\sigma}^2}{\sigma^2} \sim \chi^2(n-1) \\
\frac{(n-1)\hat{\sigma}^2}{\chi_{\frac{\alpha}{2}}^2(n-1)} \leq \sigma^2 \leq \frac{(n-1)\hat{\sigma}^2}{\chi_{1-\frac{\alpha}{2}}^2(n-1)}
母比率の区間推定(1標本問題)
- 母集団がある性質を持っている場合、この性質を持っているものの比率。
- 例:人口N人の集団から、n人を抽出し、ある政策についての賛成の比率(賛成者数が$x$とすると標本比率は$\hat{p}=x/n$d
- 二項分布
- 頻出なので必ず覚える。
nが大きい時、中心極限定理より、\\
z = \frac{\hat{p}-p}{\sqrt{p(1-p)/n}} \sim N(0,1)\quad(近似的)\\
\hat{p}-z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \leq p \leq \hat{p}+z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
- 過去問:2017年11月問13[1]、2018年6月問11[1]、2018年11月問12,問15、2019年6月問14、2019年11月問13,問15
母平均の差の区間推定(2標本問題)
- 母集団が2つあり、母集団から抽出された2つの標本に基づいて母数の差や比を考える。
2つの母平均の差の区間推定
母平均 \quad \mu_1, \mu_2\\
母分散 \quad \sigma_1^2, \sigma_2^2\\
無作為標本 \quad x_1, \cdots x_m, y_1, \cdots y_n\\
平均 \quad \bar{x}=\sum\frac{x_i}{m}, \bar{y}=\sum\frac{y_i}{n}\\
標本平均の差 \quad d = \bar{x} - \bar{y}\\
母平均の差dの平均 \quad \delta = \mu_1 - \mu_2 \\
母平均の差の分散 \quad V[d] = \frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n}
母分散が既知の場合
z = \frac{d-\delta}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1) \\
d-z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} \leq \delta \leq d+z_{\frac{\alpha}{2}}\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}
- 95%信頼区間の場合は、$\alpha=0.05$であり、$z_{0.025}=1.96$となる。
母分散が未知で等しい場合
t = \frac{d-\delta}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{\sigma}} \sim t(m+n-2)\\
推定量$\hat{\sigma}$については、プールした分散(併合した分散、こみにした分散)を用い、以下で求められる。
\hat{\sigma}_1^2 = \sum\frac{(x_i - \bar{x})^2}{m-1},\quad\hat{\sigma}_2^2 = \sum\frac{(y_i - \bar{y})^2}{n-1}\\
\begin{align}
\hat{\sigma}^2 &= \frac{(m-1)\hat{\sigma}_1^2+(n-1)\hat{\sigma}_2^2}{(m-1)+(n-1)}\\
&= \frac{\sum(x_i-\bar{x})^2+\sum(y_i-\bar{y})^2}{m+n-2}
\end{align}
従って、信頼区間は
d-t_{\frac{\alpha}{2}}(m+n-2)\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{\sigma} \leq \delta \leq d+t_{\frac{\alpha}{2}}(m+n-2)\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{\sigma}
なお、分散$\hat{\sigma}_1^2, \hat{\sigma}_2^2$で与えられる場合もあるが、偏差平方和$\sum(x_i - \bar{x})^2, \sum(y_i - \bar{y})^2$で与えられる場合もある。
対応のある2標本の場合
例として、子供の身長と父親の身長の二つの標本の対$(x_i, y_i)$が与えられた場合、$d_i=x_i-y_i$を標本として考え、平均の差に関する区間推定は1標本の場合に帰着する
母分散の比の区間推定(2標本問題)
分散なので、差ではなく比で考えるのが適切。母分散の比$\frac{\sigma_y^2}{\sigma_x^2}$ の$100(1-\alpha)$%信頼区間は、
F_{1-\frac{\alpha}{2}}(m-1,n-1)\frac{\hat{\sigma}_y^2}{\hat{\sigma}_x^2} \leq \frac{\sigma_y^2}{\sigma_x^2} \leq F_{\frac{\alpha}{2}}(m-1,n-1)\frac{\hat{\sigma}_y^2}{\hat{\sigma}_x^2}\\
\frac{1}{F_{\frac{\alpha}{2}}(n-1,m-1)}\frac{\hat{\sigma}_y^2}{\hat{\sigma}_x^2} \leq \frac{\sigma_y^2}{\sigma_x^2} \leq F_{\frac{\alpha}{2}}(m-1,n-1)\frac{\hat{\sigma}_y^2}{\hat{\sigma}_x^2}
- 過去問:2017年6月問12[4]
母比率の差の区間推定
\hat{p}_1-\hat{p}_2 - z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}} \leq p \leq \hat{p}_1-\hat{p}_2 + z_{\frac{\alpha}{2}}\sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1}+\frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}
- 過去問:2017年11月問13[2]
4. 統計的仮説検定
2種類の過誤
判断 | $H_0$が正しい時 | $H_1$が正しい時($H_0$は誤り) |
---|---|---|
$H_0$を棄却 | 第1種過誤 | 正しい判断(検出力) |
$H_0$を受容 | 正しい判断 | 第2種過誤 |
有意水準$\alpha$の検定とは、第1種過誤の確率が$\alpha$以下の検定を言う。
第1種過誤とは、帰無仮説$H_0$の下で、$H_0$を棄却する誤り。
第2種過誤とは、対立仮説$H_1$の下で、$H_0$を受容する誤り。
過去問:2016年6月問12、2017年11月問14、2018年6月問13、2018年11月問14[2]、2019年6月問16
母平均の仮説検定(1標本問題)
母分散が既知
両側検定:帰無仮説 $H_0:\mu=\mu_0$, 対立仮説 $H_1:\mu\neq\mu_0$
帰無仮説の棄却域は
z = \frac{|\bar{x}-\mu|}{\sigma/\sqrt{n}}\\
|z| \geq z_{\frac{\alpha}{2}}
両側検定では、有意水準5%のときz_{0.025}=1.96、有意水準1%のときz_{0.005}=2.58
片側検定:帰無仮説 $H_0:\mu=\mu_0$, 対立仮説 $H_1:\mu > \mu_0 or \mu < \mu_0 $
検定値は
z = \frac{|\bar{x}-\mu|}{\sigma/\sqrt{n}}
帰無仮説の棄却域は
|z| \geq z_{\alpha}
片側検定では、有意水準5%のときz_{0.05}=1.645、有意水準1%のときz_{0.001}=2.33
両側検定と片側検定の違いは、$z_{\frac{\alpha}{2}}$とするか$z_{\alpha}$とするかの違い。
- 過去問:2019年6月問15
母分散が未知(t検定)
両側検定:帰無仮説 $H_0:\mu=\mu_0$, 対立仮説 $H_1:\mu\neq\mu_0$
検定値は
t = \frac{|\bar{x}-\mu|}{\hat{\sigma}/\sqrt{n}}
帰無仮説の棄却域は
|t| \geq t_{\frac{\alpha}{2}}(n-1)
両側検定では、有意水準5%のときz_{0.025}=1.96、有意水準1%のときz_{0.005}=2.58
片側検定:帰無仮説 $H_0:\mu=\mu_0$, 対立仮説 $H_1:\mu > \mu_0$ or $\mu < \mu_0 $
帰無仮説の棄却域は
t = \frac{|\bar{x}-\mu|}{\hat{\sigma}/\sqrt{n}}\\
|t| \geq t_{\alpha}(n-1)
- 過去問:2018年11月問13、2019年11月問16
母分散の仮説検定(1標本問題)
両側検定:帰無仮説 $H_0:\sigma=\sigma_0$, 対立仮説 $H_1:\sigma\neq\sigma_0$
検定値は
\chi^2 = \frac{(n-1)\hat{\sigma}^2}{\sigma_0^2}\\
帰無仮説の受容域は
\chi_{1-\frac{\alpha}{2}}^2 (n-1) \leq \chi^2 \leq \chi_{\frac{\alpha}{2}}(n-1)
帰無仮説の棄却域は
\chi_{1-\frac{\alpha}{2}}^2 (n-1) > \chi^2 \\
\chi^2 > \chi_{\frac{\alpha}{2}}(n-1)
有意水準5%の両側検定の場合、受容域は
\chi_{0.975}^2 (n-1) \leq \chi^2 \leq \chi_{0.025}(n-1)
となる。
片側検定:帰無仮説 $H_0:\sigma=\sigma_0$, 対立仮説 $H_1:\sigma<\sigma_0$
帰無仮説の受容域は
\chi_{1-\alpha}^2 (n-1) \leq \chi^2
帰無仮説の棄却域は
\chi_{1-\alpha}^2 (n-1) > \chi^2
母比率の仮説検定(1標本問題)
帰無仮説:$H_0:p=p_0$
検定値は
z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}
両側検定:帰無仮説 $H_0:p=p_0$, 対立仮説 $H_1:p\neq p_0$
帰無仮説の棄却域は
|z| \geq z_{\frac{\alpha}{2}}
片側検定:帰無仮説 $H_0:p=p_0$, 対立仮説 $H_1:p > p_0$or$p < p_0$
帰無仮説の棄却域は
|z| \geq z_{\alpha}
- 過去問:2016年11月問12[2]
母平均の差の仮説検定(2標本問題)
母分散が既知で等しい場合
x_1,\cdots,x_n \sim N(\mu_1, \sigma^2), \bar{x} \sim N\left(\mu_1, \frac{\sigma^2}{m}\right)\\
y_1,\cdots,y_n \sim N(\mu_2, \sigma^2), \bar{y} \sim N\left(\mu_2, \frac{\sigma^2}{n}\right)\\
d = \bar{x} - \bar{y} \sim N\left(0, \frac{\sigma^2}{m} + \frac{\sigma^2}{n}\right)\\
E[d] = \mu_1 - \mu_2\\
V[d] = \frac{\sigma^2}{m} + \frac{\sigma^2}{n}\\
帰無仮説 $H_0:\delta=0$, 両側対立仮説 $H_1:\delta\neq 0$
検定値は
z = \frac{d}{\sigma\sqrt{\frac{1}{m}+\frac{1}{n}}}
帰無仮説の棄却域は
|d| \geq z_{\frac{\alpha}{2}} \sqrt{\frac{1}{m}+\frac{1}{n}} \sigma
母分散が既知だが等しくない場合
x_1,\cdots,x_n \sim N(\mu_1, \sigma_1^2)\\
y_1,\cdots,y_n \sim N(\mu_2, \sigma_2^2)\\
d = \bar{x} - \bar{y} \sim N\left(0, \frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n}\right)\\
E[d] = \delta = \mu_1 - \mu_2\\
V[d] = \frac{\sigma_1^2}{m} + \frac{\sigma_2^2}{n}\\
帰無仮説 $H_0:\delta=0$, 両側対立仮説 $H_1:\delta\neq 0$
検定値は
z = \frac{d}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}}
帰無仮説の棄却域は
|d| \geq z_{\frac{\alpha}{2}} \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}
母分散が未知で等しい場合
x_1,\cdots,x_n\\
y_1,\cdots,y_n\\
d = \bar{x} - \bar{y}\\
E[d] = \delta = \mu_1 - \mu_2\\
帰無仮説 $H_0:\delta=0$, 両側対立仮説 $H_1:\delta\neq 0$
検定値は
t=\frac{\bar{x}-\bar{y}}{\sqrt{\frac{1}{m}+\frac{1}{n}}\hat{\sigma}}\\
ここで、$\hat{\sigma}$はプールした分散(前述。再掲)で、以下で求められる。
\begin{align}
\hat{\sigma} &= \frac{(m-1)\hat{\sigma}_1^2+(n-1)\hat{\sigma}_2^2}{m+n-2}\\
&= \frac{\sum(x_i-\bar{x})^2+\sum(y_i-\bar{y})^2}{m+n-2}
\end{align}
帰無仮説の棄却域は
|t| \geq t_{\frac{\alpha}{2}}(m+n-2)
- 過去問:2016年6月問11[3]、2018年6月問12
対応のある2標本の場合
区間推定の場合と同様、1標本問題に帰着する。
d_i = y_i - x_i\\
\mu_1 = E[\bar{x}](xの母平均), \quad \mu_2 = E[\bar{y}](yの母平均)\\
検定値は
t = \frac{\bar{d}}{\hat{\sigma}_d/\sqrt{n}}
帰無仮説の棄却域は
|t| \geq t_{\frac{\alpha}{2}}(n-1)
- 過去問:2016年11月問14
母分散の比の検定
x_i \sim N(\mu_x, \sigma_x^2)\\
y_j \sim N(\mu_y, \sigma_y^2)\\
帰無仮説 $H_0:\sigma_x^2 = \sigma_y^2$, 両側対立仮説 $H1:\sigma_x^2\neq\sigma_y^2$
検定値は
F=\frac{\hat{\sigma}_2^2}{\sigma_x^2}\cdot\frac{\sigma_y^2}{\hat{\sigma}_y^2}=\frac{\hat{\sigma}_x^2}{\hat{\sigma}_y^2}\sim F(m-1, n-1)
帰無仮説の受容域は
F_{1-\frac{\alpha}{2}}(m-1,n-1)\leq F \leq F_{\frac{\alpha}{2}}(m-1, n-1)
帰無仮説の棄却域 は
F_{1-\frac{\alpha}{2}}(m-1,n-1) > F\\
F > F_{\frac{\alpha}{2}}(m-1, n-1)\\
なお、
F_{1-\frac{\alpha}{2}}(m-1,n-1) = \frac{1}{F_{\frac{\alpha}{2}}(n-1,m-1)}
であることを用いることもある。
- 過去問:2018年11月問14
母比率の差の検定
母比率を$p$とすると$x\sim B(n,p)$
帰無仮説 $H_0:p_1 = p_2$, 対立仮説 $H_1:p_1\neq p_2$
\hat{p}_i = \frac{x_i}{n_i} \sim N\left(p_i,\frac{p_i(1-p_i)}{n_i}\right)\\
\hat{p}_1 - \hat{p}_2 \sim N\left(p_1-p_2,\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}\right)\
検定値は
\begin{align}
z &= \frac{(\hat{p}_1 - \hat{p}_2)-(p_1-p_2)}{\sqrt{\frac{\hat{P}_1(1-\hat{P}_1)}{n_1}+\frac{\hat{P}_2(1-\hat{P}_2)}{n_2}}}\\
&= \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\frac{\hat{P}_1(1-\hat{P}_1)}{n_1}+\frac{\hat{P}_2(1-\hat{P}_2)}{n_2}}}\\
\end{align}
帰無仮説の棄却域は
|z| > z_{\frac{\alpha}{2}}
次のように修正した統計量を用いることもある。
z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}^*(1-\hat{p}^*)(1/n_1+1/n_2)}}\\
ただし, \hat{p}^* = \frac{x_1+x_2}{n_1+n_2}
5. 線形モデル分析
y_i = \alpha_i + \beta_i x_1 + \epsilon_i \quad \epsilon_i \sim N(0,\sigma^2)
正規方程式
線形モデルでは、残差$e_i = y_i-\hat{y}_i$として、残差平方和
S(\hat{\alpha},\hat{\beta})= \sum_i^n e_i^2 = \sum_{i=1}^n (y_i-\hat{y}_i)^2 =\sum_{i=1}^n (y_i-(\hat{\alpha}+\hat{\beta}y_i))^2
を最小にするような$\alpha, \beta$を求めていく。$\hat{\alpha},\hat{\beta}$をそれぞれ偏微分した式を$0$とおくと以下の2式が得られ、正規方程式と呼ばれる。
n\hat{\alpha}-\sum_{i=1}^n y_i + \hat{\beta}\sum_{i=1}^n x_i = 0\\
\hat{\beta}\sum_{i=1}^n x_i^2-\sum_{i=1}^n x_i y_i+\hat{\alpha}\sum_{i=1}^n x_i = 0
この式は覚えなくても導出ができれば良い。$\alpha=$0とした場合の単回帰モデルの性質について、2021年6月問16にて出題されており、$\alpha$が$0$のときの正規方程式がどうなるかが問われた問題となっていた。
回帰係数の区間推定
\hat{\beta} - t_{\frac{\alpha}{2}}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}} \leq \beta \leq \hat{\beta} + t_{\frac{\alpha}{2}}(n-2)\frac{\hat{\sigma}}{\sqrt{T_{xx}}}\\
ただし, T_{xx} = \sum(x_i-\bar{x})^2 \quad (xの偏差平方和)
標準誤差$se(\hat{\beta}) = \frac{\hat{\sigma}}{\sqrt{T_{xx}}}$を利用して表すと
\hat{\beta} - t_{\frac{\alpha}{2}}(n-2)se(\hat{\beta}) \leq \beta \leq \hat{\beta} + t_{\frac{\alpha}{2}}(n-2)se(\hat{\beta}) \\
回帰係数に関する検定
帰無仮説 $H_0: \beta=\beta_0$, 両側対立仮説 $H_1: \beta\neq\beta_0$
検定値は
t = \frac{\hat{\beta}-\beta_0}{\hat{\sigma}/\sqrt{T_{xx}}} = \frac{\hat{\beta}-\beta_0}{se(\hat{\beta})}
帰無仮説の棄却域は
|t| > t_{\frac{\alpha}{2}}(n-2)
決定係数
平方和の分解
\begin{align}
\sum(y_i-\bar{y})^2 &= \sum(\hat{y}_i-\bar{y})^2 + \sum(y_i-\hat{y}_i)^2\\
S_y(=S_T) &= \quad S_R \quad + \quad S_e\\
\end{align}
$S_y$ : 平方和(総平方和), $S_R$ : 回帰による平方和, $S_e$ : 残差平方和
平方和の分解の式は、右辺の第1項と第2項を逆にするとわかりやすい。
\begin{align}
\sum(\color{red}{y_i}-\color{blue}{\bar{y}})^2 &= \sum(\color{red}{y_i}-\hat{y}_i)^2 + \sum(\hat{y}_i-\color{blue}{\bar{y}})^2
\end{align}
決定係数:
R^2 = S_R/S_y
自由度調整済み決定係数
応答変数$y$の変動を表す総平方和$S_y=\sum(y_i-\bar{y})^2$のうちモデルがどの程度を説明しているかは決定係数$R^2$を用いて評価されるが、説明変数の個数$p$が異なるモデル間の比較には使えない。説明変数の個数$p$の異なるモデルの比較に利用するために提案された指標の一つが自由度調整済み決定係数(自由度修正済み決定係数、$adjusted R^2$、$R^{*2}$)
\begin{align}
R^{*2} &= 1 - \frac{S_e/(n-p-1)}{S_y/(n-1)}\\
&= 1 - \frac{\hat{\sigma}^2}{\hat{\sigma}_y^2}\\
\end{align}
S_e = \sum(y_i-\hat{y})^2, \quad S_y = \sum(y_i-\bar{y})^2
回帰の有意性の検定と回帰係数に関する検定
帰無仮説:$H_0: \beta_1 = \cdots = \beta_p = 0$, 対立仮説:$H_1:\beta_1,\cdots,\beta_pのどれかが0でない$
検定値は
\begin{align}
F &= \frac{(S_R/\sigma)/p}{(S_e/\sigma^2)/(n-p-1)} \sim F(p, n-p-1)\\
&= \frac{V_R}{V_e}\\
\end{align}
V_R = S_R/p, V_e = S_e/(n-p-1)
帰無仮説の棄却域は、
F \geq F_{\alpha}(p,n-p-1)
回帰係数に関しては、統計ソフトウェアを利用した時の結果をもとに回答する問題もだされるので、その値の見方も簡単に説明する。
y = \alpha + \beta_1\times x_1 + \beta_2\times x_2 + 誤差項
Coefficients:
Etimate Std. Error t value Pr(>|t|)
(Intercept) -1.273e+03 1.121e+02 -11.267 1.39e-15
beta_1 -6.623e-02 1.048e-02 -6.326 5.85e-08
beta_2 1.765e+02 1.172e+01 14.872 < 2e-16
---
Residual standard error: 103.5 on 52 degrees of freedom
Multiple R-squred: 0.821, Adjusted R-squred: 0.8141
F-statistic: 119.2 on 2 and 52 DF, p-value: < 2.2e-16
Residual standard error: 103.5 on 52 degrees of freedomとなっていることから、自由度が52であることがわかる。説明変数は2つなので(定数項も加味し)、標本数は53である。
t valueの値がt値であり、Pr(>|t|)がP値である。ここで仮定している帰無仮説は$\beta=0$ということであり、t値が大きい、つまり、P値が小さい(有意水準5%であれば、P値が0.05以下)であれば帰無仮説が棄却され、対立仮説である$\beta\neq0$が採用される。つまり、この式にある説明変数$x_1$や$x_2$が有意であり、目的変数に影響を与えていると言える。
t値が大きい \Leftrightarrow P値が小さい \Leftrightarrow 説明変数が有意
また、最後の行のF-statisticのところにあるP値が$< 2.2e-16$となっていることから、帰無仮説:$H_0: \beta_1 = \cdots = \beta_p = 0$が棄却され、説明変数のどれかは$0$ではないということがわかる。
- 過去問:2016年6月問5[2][3],問14、2016年11月問16、2017年6月問15、2017年11月問2、問12、2018年6月問14、2018年11月問17,問18、2019年6月問17,問18、2019年11月問18
1元配置分散分析(一元配置分散分析)
ある因子Aの$a$個の水準($A_1, \cdots, A_a$)に対して応答変数yの平均が異なるかどうかを検定
水準 | 水準での データの大きさ |
観測値 | 平均 |
---|---|---|---|
$A_1$ | $n_1$ | $y_{11},y_{12},\cdots,y_{1n_1}$ | $\bar{y}_{1.}$ |
$A_2$ | $n_2$ | $y_{21},y_{22},\cdots,y_{2n_1}$ | $\bar{y}_{2.}$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
$A_a$ | $n_a$ | $y_{a1},y_{a2},\cdots,y_{an_{a.}}$ | |
$n$ | $\bar{y}_{..}$ |
表の$y_{ji}$を以下のモデルで表すとする。
y_{ji} = \mu + \alpha_j + \epsilon_{ji}, \quad(j=1,\cdots,a;i=1,\cdots,n_j)\\
\mu : 一般平均, \quad \alpha_{j} : A_jの効果, \quad n_j : 水準A_jで観測回数 \\
\sum_j n_j\alpha_j = 0
帰無仮説 $H_0:\alpha_1=\cdots=\alpha_a=0$(あるいは$\mu_1=\cdots=\mu_a=0$), 対立仮説 $H_1:\alpha_1,\cdots,\alpha_a$のいずれかが0でない(あるいは$\mu_i\neq \mu_j$となる$(i,j)$が存在する)
\begin{align}
\sum_{j=1}^{a}\sum_{i=1}^{n_j}(y_{ji}-\bar{y}..)^2 &= \sum_{j=1}^{a}n_j(\bar{y}_{j.}-\bar{y}_{..})^2 + \sum_{j=1}^{a}\sum_{i=1}^{n_j}(y_{ji}-\bar{y}_{j.})^2\\
S_T &= S_A + S_e\\
自由度:n-1 &= (a-1) + (n-a)
\end{align}
S_T : 総平方和, S_A : 水準間平方和, S_e : 残差平方和\\
なお、平方和を自由度で割ったものを平均平方と呼ぶ。
帰無仮説 $H_0$が正しいとき、$\frac{S_A}{\sigma^2}\sim \chi^2(a-1)$,$\frac{S_e}{\sigma^2}\sim\chi^2(n-a)$
検定値は
\begin{align}
F &= \frac{(S_A/\sigma^2)/(a-1)}{(S_e/\sigma^2)/(n-a)} \sim F(a-1, n-a)\\
&= \frac{S_A/(a-1)}{S_e/(n-a)} \quad \leftarrow 平均平方での表現\\
&= \frac{V_A}{V_e}
\end{align}
有意水準$100(1-\alpha)$%における棄却域は
F \geq F_{\alpha}(a-1,n-a)
$A_j$水準の母平均の$100(1-\alpha)$%信頼区間は
\bar{y}_{j.}\pm{t_{\alpha /2}(n-a)\sqrt{V_e/n_j}} \\
= \bar{y}_{j.}\pm{t_{\alpha /2}(n-a)\sqrt{\frac{S_e}{n_j(n-a)}}}
- 過去問:2017年6月問14、2017年11月問16、2019年11月問17、2021年6月問21
- 2元配置分散分析はあまり出題されない。
適合性の検定(適合度検定)
$A_1$ | $A_2$ | $\cdots$ | $A_k$ | 計 | |
---|---|---|---|---|---|
観測度数 | $O_1$ | $O_2$ | $\cdots$ | $O_k$ | $n$ |
期待度数 | $E_1$ | $E_2$ | $\cdots$ | $E_k$ | $n$ |
帰無仮説 $H_0:P(A_i)=p_i=\frac{E_i}{n}$
対立仮説 $H_1:P(A_i)\neq p_i$
検定値は
\chi^2 = \sum\frac{(O_i-E_i)^2}{E_i} \sim \chi^2(k-1)
有意水準$100(1-\alpha)$%における棄却域は
\chi^2 \geq \chi_{\alpha}^2(k-1)
- 過去問:2017年11月問15、2018年11月問16
独立性の検定
観測値の$r\times c$クロス集計
$B_1$ | $B_2$ | $\cdots$ | $B_c$ | |
---|---|---|---|---|
$A_1$ | $O_{11}$ | $O_{12}$ | $\cdots$ | $O_{1c}$ |
$A_2$ | $O_{21}$ | $O_{22}$ | $\cdots$ | $O_{2c}$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | |
$A_r$ | $O_{r1}$ | $O_{r2}$ | $\cdots$ | $O_{rc}$ |
期待値の$r\times c$クロス集計
$B_1$ | $B_2$ | $\cdots$ | $B_c$ | |
---|---|---|---|---|
$A_1$ | $E_{11}$ | $E_{12}$ | $\cdots$ | $E_{1c}$ |
$A_2$ | $E_{21}$ | $E_{22}$ | $\cdots$ | $E_{2c}$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | |
$A_r$ | $E_{r1}$ | $E_{r2}$ | $\cdots$ | $E_{rc}$ |
帰無仮説 $H_0 : P(A_i \cap B_j) = P(A_j)P(B_j)$(2つの属性$A,B$が独立)
検定値は
\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\sim\chi^2((r-1)(c-1))
有意水準$100(1-\alpha)$%における棄却域は
\chi^2 \geq \chi_{\alpha}^2((r-1)(c-1))
- 過去問:2016年6月問13、2016年11月問13、2017年6月問13、2021年6月問19