はじめに
こんにちは、fukiです!
こちらは統計検定準1級の過去問に利用されている公式とその解法をまとめたものです。
今回は2015年6月に実施された統計検定の過去問をもとに、重要な公式やその解説をまとめています。
また、基本的に問題文詳細は記述していません。
※あくまで個人の学習の一環としてまとめたものなので、記述ミスしている可能性があります。
正しい公式や解法は過去問書籍の解説やワークブックを参照してご確認下さい。
公式と解法
問1
- (1) 大学全体の合格率:
0.4 \times 0.6 + 0.3 \times 0.4 = 0.36
- (2) 合格者からランダムに一人選んだ場合に女子の確率
\frac{0.6 \times 0.4}{0.36} = \frac{2}{3}
問2
二項分布の確率の公式
\displaylines{
C(n, k) \cdot p^k \cdot (1 - p)^{n - k}\\
C(n, k) = \frac{n!}{k!(n - k)!}
}
- (1)不良品率が0.4で不良品が2/5となる確率
\displaylines{
C(5, 2) \cdot 0.4^2 \cdot 0.6^3 = 0.3456
}
- (2) 生産者危険と消費者危険
- 不良品率が0.2の生産者危険:
0.2の期待値1個よりも不良品が出てしまう確率を求めれば良いので0.20 + 0.05 + 0.01 = 0.26
- 不良品率が0.5の消費者危険:
0.2の期待値1個以下となる確率を求めれば良いので
0.03 + 0.16 = 0.19
- 不良品率が0.2の生産者危険:
問3
二項分布の分散
\displaylines{
V[X]= np(1-p)
}
- (1) 無作為抽出とした場合の信頼区間
- $期待値 \pm 標準偏差(SE) \cdot 1.96$
\displaylines{ np \ \pm \sqrt{np(1-p)} \cdot 1.96 \\ 528.12 \pm \sqrt{528.12 (1-0.54)} \cdot 1.96\\ 信頼区間: 497.5707 \leq 528.12\leq 558.6692\\ 確率の信頼区間: 0.50876.. \leq 0.54 \leq 0.57123... }
- (2) 支持率0.5とした場合、信頼区間が0.02となるために必要なサンプル数
\displaylines{ 2 \cdot 1.96 \cdot \sqrt{\frac{0.5 \cdot (1-0.5)}{n}} = 0.02\\ n = 9,604 }
問4
- (1) 偏差値の組み合わせとして適当なものを選択
- 平均60,標準偏差20なのでA君:60,B君:45
- (2) 偏差値45〜60間の人数
- 標準正規分布表の-0.5〜1の範囲なので、
左側:0.1587
右側:0.3085
500名の53.28%なので266.4名1 - 0.1587 - 0.3085 = 0.5328
- 標準正規分布表の-0.5〜1の範囲なので、
- (3) 四分位範囲は25%~75%の範囲となるので、25%点は標準正規分布表の0.67となる
\displaylines{ 20(標準偏差) \cdot 0.67 = 13.4\\ 13.4 \cdot 2 = 26.8 }
- (4) 条件付き期待値は$x \cdot f(x)$を指定の範囲で積分する
平均である60点以上の人たちの平均(期待値)なので$f(z)$が0以上で積分
ただし、正規分布の対象性の観点から2を掛ける\displaylines{ \int^{\infty}_0 2z \cdot f(z) dz\\ =\int^{\infty}_0 2z \cdot \frac{1}{\sqrt{2\pi}} exp(\frac{-z^2}{2}) dz\\ =\frac{2}{\sqrt{2\pi}} \int^{\infty}_0 z \cdot exp(\frac{-z^2}{2})dz\\ =\frac{2}{\sqrt{2\pi}} [ -exp(\frac{-z^2}{2})]^{\infty}_0\\ = 0.798\\ \\ 20 \times 0.798 + 60 = 75.96 }
問5
- 単純無作為抽出
- クラスター抽出
- 層化抽出
- 有意抽出
- 二段抽出
問6
- (1)
- 低い点数の人を用いて無いので平均は高く(過大)評価され、点数の低い一部のサンプルが無いので、相関係数は低く評価される
- (2)
- 1回目のテストの結果で保管しているので平均は概ね偏りなく推定出来るが、回帰で代入した値は直線上に位置するので相関係数が大きく評価される
問7
-
(1)
\displaylines{ T統計量 = \frac{\bar{x} - \mu}{\sqrt{\frac{s^2}{n}}}\\ = \frac{132 - 135}{\sqrt{\frac{8^2}{10}}}\\ = 1.1858.. }
自由度9の10%点は1.383の為、棄却できず、少ないとは言えない
-
(2)
\displaylines{ \frac{\bar{x} - 135}{4} \leq 1.64\\ x = 141.56 }
142に設定すれば良い
問8
- (1)
- 相関係数
$$
r_{xy} = \frac{Cov(X,Y)}{\sqrt{V[X]} \sqrt{V[Y]}}
$$ - 共分散
$$
V[X+Y] = V[X] + V[Y] + 2Cov[X,Y]
$$
より、
\displaylines{ 170^2 = 85^2 + 90^2 + 2 \cdot Cov[L,R]\\ Cov[L,R] = 6,325\\ r_{lr} = \frac{6,325}{85\times 95}= 0.783.. }
- 相関係数
- (2)
- 差の分散
$$
V[X-Y] = V[X] + V[Y] - 2Cov[X,Y]
$$
より
\displaylines{ V[X-Y] = 85^2 + 95^2 -2\cdot 6,325 = 3600\\ SE[X-Y] = 60 }
- 差の分散
- (3)
2変量正規分布 $(X, Y) \sim N\left(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho\right)$ の条件付き期待値\displaylines{ E[Y | X = x] = \mu_Y + \rho \frac{\sigma_Y}{\sigma_X} (x - \mu_X)\\ = 260 + 0.783 \cdot \frac{95}{85}(350 - 310)\\ = 295.004.. }
問9
$log Y = X → Y = exp(x)$
グラフ
引用:
条件付き期待値
\displaylines{
log Y = a + bx + \epsilon \\
Y = exp(a + bx + \epsilon) \\
\mathbb{E}[Y|X=x] = exp[a+\beta x] \cdot \mathbb{E}[exp(\epsilon)]
}
\displaylines{
\text{正規分布のモーメント母関数} \\
\mathbb{E}[exp(\theta X)] = exp(\frac{\mu \theta + \sigma^2 \theta^2}{2})\\
\mathbb{E}[exp(\epsilon)]を求めたいので、\mu = 0, \theta = 1として\\
\mathbb{E}[exp(\epsilon)] = \mathbb{E}[exp(\frac{0 + \sigma^2}{2})] = \mathbb{E}[exp(\frac{\sigma^2}{2})] \\
\mathbb{E}[Y|X=x] = exp[a+\beta x + \frac{\sigma^2}{2}]
}
問10
-
(1)
自己回帰係数$\alpha$- $\alpha = 0$:ランダムに上下する
- $\alpha < 0$:一つ前の逆の値を交互に行き来しやすい
- $\alpha > 0$:1つ目に近い値となり緩やか
上記より
$\alpha = 0.7$:(B)
$\alpha = 0$:(C)
の③となる
-
(2)
DW(タービン・ワトソン比):DW = \frac{\Sigma^T_{t=2} (\hat{U_t} - \hat{U_{t-1}})^2}{\Sigma^T_{t=2} \hat{U_t^2}}
- $ T $: 観測の総数(サンプルサイズ)
- $ t $: 観測実数
- $ \hat{U_t} $: 時点 t における残差の推定値
DW(ダービン・ワトソン)統計量の結果
- 0に近い:正の自己回帰がある
- 2に近い:ホワイトノイズ
- 4に近い:負の自己回帰がある
- 回帰係数の通常の最小二乗推定量は偏りを持たない
よって③となる
問11
-
(1)
直交表ではどの2列を選択しても(1,1), (1,2), (2,1), (2,2)が同じ回数含まれている必要があるのでそれを満たすのは①となる※参考
$L_8(2^7) $の直交表実験番号 因子 1 因子 2 因子 3 因子 4 因子 5 因子 6 因子 7 1 1 1 1 1 1 1 1 2 1 1 1 2 2 2 2 3 1 2 2 1 1 2 2 4 1 2 2 2 2 1 1 5 2 1 2 1 2 1 2 6 2 1 2 2 1 2 1 7 2 2 1 1 2 2 1 8 2 2 1 2 1 1 2 -
(2)
直行計画
$2^{4-1}$計画:2水準、4因子の計画を$2^{4-1} = 2^3 = 8回$で実施する- 直行計画は他の主効果と独立に推定している
- 因子間の相互作用が無いと仮定している
- 4因子相互作用は一般的には存在せず、解釈も難しいので無視して良い
よって④となる
問12
-
(1)
オッズ:ある事象が$\frac{起こる確率}{起こらない確率}$
オッズ比($OR$):$\frac{グループAのオッズ}{グループBのオッズ}$
Χ二乗分布の自由度は$(n-1)(m-1)$より1となる
自由度1のΧ二乗分布の5%点は3.84なので帰無仮説を棄却できない
帰無仮説を棄却できないので、オッズ比は1を含むと想定される実際に計算すると
対数オッズ比の標準誤差:\displaylines{ \text{標準誤差の95%信頼区間:}log \ OR \pm 1.96 \times SE(\log \ OR))\\ SE(log \ OR) = \sqrt{\frac{1}{Aで起こる数} + \frac{1}{Aで起こらない数}+ \frac{1}{Bで起こる数}+\frac{1}{Bで起こらない数}}\\ log\ OR = 0.981.. \\ 0.981 \pm 1.96 \times 0.604 → exp(-0.203) 〜 exp(2.165)\\ 0.816 〜 8.715となり、1を含んでいることが確認出来る }
-
(2)
全ての数を2倍にした場合のΧ二乗統計量はX^2 = \frac{90 (48\times 12 - 12 \times 18)^2}{60 \times 30 \times 66 \times 24}\approx 4.091..
約1.5倍になっている
ORについては
\displaylines{ \frac{\frac{48}{12}}{\frac{18}{12}} = \frac{48}{12} \cdot \frac{12}{18} = 2.67 }
と変わらない
検定はΧ二乗統計量が$3.84 < 4.091..$なので、帰無仮説を棄却でき優位となるので①が正解
問13
↓下部の公式を参照して
-
(1)
- 事前分布が一様分布$\beta(1,1)$の際に12回実施して3回成功したので
\displaylines{ 事後分布:\beta(1 + 3, 1 + 12 -3)= \beta(4, 10)\\ 期待値:\frac{4}{4 + 10} = \frac{4}{14}\\ 分散:\frac{4 \cdot 10}{(4+10)^2 (4+10+1)} = 0.0136..\\ 最頻値:\frac{4-1}{4+10-2} = \frac{1}{4} }
よって①が正解
- (2)事前分布が$\beta(5,5)$の際に12回実施して3回成功したので
\displaylines{ 事後分布:\beta(5 + 3, 5 + 12 -3)= \beta(8, 14)\\ 期待値:\frac{8}{8 + 14} = \frac{4}{11}\\ 分散:\frac{8 \cdot 14}{(8+14)^2 (8+14+1)} = 0.0106..\\ 最頻値:\frac{8-1}{8+14-2} = \frac{7}{20} }
よって③が正解
共益事前分布と事後分布
-
二項分布の共役事前分布:ベータ分布
-
事前分布(ベータ分布):
\displaylines{ p(\theta) = \text{Beta}(\alpha, \beta) = C\ \theta^{\alpha - 1} (1 - \theta)^{\beta - 1}\\ C = \frac{1}{Beta(\alpha, \beta)} = \frac{(\alpha + \beta -1)!}{(\alpha -1 )(\beta -1)!} }
-
事後分布(ベータ分布):$p(\theta | x) = \text{Beta}(\alpha + x, \beta + n - x)$
※$x$:成功回数、$n$:試行回数) -
平均: $E[\theta] = \frac{\alpha}{\alpha + \beta}$
-
分散: $\text{Var}[\theta] = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}$
-
最頻値(mode): $Mode = \frac{\alpha -1}{\alpha
+\beta -2}$
-
-
ポアソン分布の共役事前分布:ガンマ分布
- 事前分布(ガンマ分布):
\displaylines{ p(\lambda) = \text{Gamma}(\alpha, \beta) = \frac{\beta^\alpha}{\Gamma(\alpha)} \lambda^{\alpha - 1} e^{-\beta \lambda}\\ \Gamma(\alpha) = \int_0^\infty t^{\alpha - 1} e^{-t} \, dt }
-
事後分布(ガンマ分布):$p(\lambda | x) = \text{Gamma}(\alpha + \sum x_i, \beta + n)$
($x_i$: 観測データ、$n$: 観測数) -
平均:$E[\lambda] = \frac{\alpha}{\beta}$
-
分散:$\text{Var}[\lambda] = \frac{\alpha}{\beta^2}$
-
正規分布($\sigma^2$既知)の共役事前分布:正規分布
で表させれると仮定する
\mu \sim \mathcal{N}(\mu_0, \sigma^2_0)
- 事前分布:
p(\mu) = \frac{1}{\sqrt{2 \pi } \ \sigma_0} exp[- \frac{(\mu - \mu_0)^2}{2\sigma_0^2}]
- 事後分布:
\displaylines{ 事後分布N\sim \big( \frac{n \ \sigma_0^2\ \bar{x} + \sigma^2 \mu_0}{n \ \sigma_0^2 + \sigma^2} , \frac{\sigma^2 \sigma_0^2}{n \sigma_0^2 + \sigma^2}\big) }
問14
- (1)
- 二項分布
- 確率質量関数
P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}
- $\text{V}[X] = n p (1 - p)$
- $\mathbb{E}[X] = n p$
よって④が正解\displaylines{ V[M] = N \cdot \frac{\pi}{4} (1- \frac{\pi}{4})なので\\ V[\frac{4M}{N}] = \frac{4^2}{N^2} V[M]\\ = \frac{4^2}{N^2} N \cdot \frac{\pi}{4} (1- \frac{\pi}{4})\\ = \frac{4^2}{N}\cdot \frac{\pi}{4} (1- \frac{\pi}{4}) \\ SD[\frac{4M}{N}] = 0.01となるので\\ \sqrt{\frac{4^2}{N}\cdot \frac{\pi}{4} (1- \frac{\pi}{4})} = 0.01\\ \frac{4}{\sqrt{N}} \cdot 0.4108 = 0.01\\ N = 2,7001.062.. }
- 二項分布
- (2)
- 期待値を用いた分散の公式
\text{V}[X] = \mathbb{E}[X^2] - (\mathbb{E}[X])^2
より\text{V}[A\cdot X] = A^2 \text{Var}[X]
\displaylines{ V[\hat{\pi}]= V\Big[ 4\cdot \frac{1}{n} \Sigma_{i=1}^n \sqrt{1-U_i^2}\Big] \\ =\frac{4^2}{n^2} \cdot \Sigma_{i=1}^n \cdot V\Big[ \sqrt{1-U_i^2}\Big]\\ =\frac{4^2}{n^2} \cdot \Sigma_{i=1}^n \cdot \Big[\mathbb{E}\big[ 1-U^2 \big] - \Big( \mathbb{E}\big[ \sqrt{1-U^2} \big] \Big)^2 \Big] \\ 期待値を求めたいので積分を行う\\ =\frac{4^2}{n^2} \cdot \Sigma_{i=1}^n \cdot \Big[\int^1_0(1-U^2)du - (\frac{\pi}{4})^2 \Big] \\ =\frac{4^2}{n^2} \cdot \Sigma_{i=1}^n \cdot \big[ [u-\frac{u^3}{3}]^1_0 -(\frac{\pi}{4})^2\big]\\ =\frac{4^2}{n^2} \cdot \Sigma_{i=1}^n \cdot 0.05 =n \cdot \frac{4^2}{n^2} \cdot 0.05=\frac{16}{n}\cdot 0.05 \\ \\ \sqrt{\frac{16}{n}\cdot 0.05} = 0.01\\ SD[\hat{\pi}]= 8,000 }
問15
-
(1)
- 自由度調整済み決定係数(Adjusted R-squared)とF値に対するP値(p-value)が一番小さいのはモデル3なので④が正解
-
(2)
- モデル3の回帰式は
y=15.406875 -3.380727x + 0.578985x^2 - 0.019017x^3
となるので、
20期、23期をそれぞれ$x$に代入すると
20期:27.3
23期:12.6
なので②が正解
問16
-
(1)
- 第3主成分までで累積寄与率83.7%とほぼすべてを説明できている
- 第1主成分の主成分負荷量は全て同程度なので、総合満足度を表していると思われる
-
(2)
- アンケート結果(標準化したもの)と固有ベクトルの内積を取れば良いので
主成分得点 No.1 No.2 No.3 No.4 第1主成分 -4.05 0.65 -1.69 5.31 第2主成分 -0.29 -0.04 2.66 0.19