はじめに
こんにちは、fukiです!
こちらは統計検定準1級の過去問に利用されている公式とその解法をまとめたものです。
今回は2016年6月に実施された統計検定の過去問をもとに、重要な公式やその解説をまとめています。
また、基本的に問題文詳細は記述していません。
※あくまで個人の学習の一環としてまとめたものなので、記述ミスしている可能性があります。
正しい公式や解法は過去問書籍の解説やワークブックを参照してご確認下さい。
公式と解法
問1
- (1)
- 変動係数 (Coefficient of Variation, CV)
より、$11/55 = 0.2$\text{変動係数 (CV)} = \frac{\text{標準偏差 (σ)}}{\text{平均値 (μ)}}
- (2)
- 変動係数が変わってないので、
\displaylines{ \frac{\alpha }{60} = 0.2 \\ \alpha= 12 }
問2
-
(1)
- 離散分布の分散
\text{分散} = \sum_{i=1}^{n} P(x_i) \cdot (x_i - \mu)^2
より
\displaylines{ \mu = \frac{\sum_{i=1}^{6} x_i}{6} = \frac{8}{3} = \frac{16}{6}より\\ p(1),p(3) = \frac{1}{6} \ p(2),p(4) = \frac{2}{6}\\ E[x^2] = \frac{1}{6} (1^2 + 2\times 2^2 + 3^2 + 2 \times 4^2)\\ = \frac{25}{3}\\ V = E[x^2] - (E[x])^2\\ = \frac{25}{3} - (\frac{8}{3})^2 = \frac{11}{9} }
-
(2)
- $p=3$になるパターンは$(1,3),(2,3)(3,1),(3,2),(3,3)$
2が出る確率は$\frac{2}{6}$、それ以外は$\frac{1}{6}$なので$\frac{7}{36}$
- $p=3$になるパターンは$(1,3),(2,3)(3,1),(3,2),(3,3)$
問3
- (1)
- $X^2$統計量の公式:
より、\displaylines{ X^2 = \sum \frac{(x - \mu)^2}{\mu}\\ または、\\ X^2 = \sum \frac{(n \cdot (s^2))}{\sigma^2}\\ ※s^2 : サンプル分散 }
\displaylines{ X^2 = \frac{(6-6)^2 + (4-6)^2 + (5-6)^2 + (3-6)^2 + (6-6)^2 + (8-6)^2 + (10-6)^2}{6}\\ = \frac{34}{6}= 5.666.. }
- (2)
- 自由度6のカイ二乗分布に従うので、5%点は12.59となり、
$5.67 < 12.59$より帰無仮説は棄却できない
- 自由度6のカイ二乗分布に従うので、5%点は12.59となり、
問4
- (1)
より、
\displaylines{ X^2 = \sum \frac{(n \cdot (s^2))}{\sigma^2} より\\ 6.26 \leq \frac{(n \cdot (s^2))}{\sigma^2} \leq 27.49\\ \frac{90}{27.49} \leq \sigma^2 \leq \frac{90}{6.26}\\ 3.27 \leq \sigma^2 \leq 14.38 }
- (2)
- 自由度(15,15)のF分布に従うF分布の上側5%点は2.403なので棄却できない
問5
- (1)
\displaylines{ SE = \frac{\sqrt{np(1-p)}}{n}\\ = \frac{\sqrt{600 \cdot 0.4 (1- 0.6)}}{600}\\ = 0.02\\ 1.64 \cdot 0.02 = 0.0328\\ c = 0.4 + 0.0328 = 0.4328 }
- (2)
- 検出力:対立仮説が$c$以下になる確率より
よって⑤が正解\displaylines{ 対立仮説のSE = \frac{\sqrt{600 \cdot 0.45(1-0.55)}}{600}\\ = 0.02031...\\ cとの差分 = 0.45- 0.433 = 0.017\\ z値 = \frac{0.017}{0.0203} = 0.8374\\ z値が約0.84の場合、\\ \text{上側%点} = 0.2033\\ 1- 0.2033 = 0.7967 }
- (3)
よって⑤が正解
\displaylines{ 検出力が0.95になるのは以下の場合になる\\ 0.4 + \frac{\sqrt{n \cdot 0.4(1-0.4)}}{n} \times 1.645 = 0.45 - \frac{\sqrt{n \cdot 0.45(1-0.45)}}{n} \times 1.645\\ 1.645 \cdot \big(\frac{\sqrt{n \cdot 0.4(1-0.4)}}{n} + \frac{\sqrt{n \cdot 0.45(1-0.45)}}{n} \big) = 0.05\\ \frac{\sqrt{0.24} + \sqrt{0.2475}}{\sqrt{n}} = 0.03039..\\ n \fallingdotseq 1,055 }
問6
-
決定係数
\displaylines{ R^2 = 1 - \frac{\text{残差平方和 (RSS)}}{\text{全平方和 (TSS)}}\\ RSS = \sum_{i=1}^n (y_i - \hat{y}_i)^2\\ TSS = \sum_{i=1}^n (y_i - \bar{y})^2 }
-
自由度調整済み決定係数
\displaylines{ \bar{R}^2 = 1 - \frac{(1 - R^2)(n - 1)}{n - p - 1}\\ n : 観測値の数 \\ p : 説明変数の数 }
-
(1)
\displaylines{ \bar{R^2} = 1- \frac{(1 - 0.0372)(21-1)}{21 - 1 -1}\\ = -0.01347... }
よって①が正解
-
(2)
- DWが2以上なので自己相関が0より小さく負になる
- 自己相関が負になると残差出力の傾きは$\pm$交互に入れ替わる
よって⑤が正解
問7
- フィッシャーの三原則
-
反復
- 実験を繰り返すことで、誤差を評価し、結果の信頼性を向上
- 反復によりランダムなばらつきの影響を減らし、統計的有意性を高める
-
無作為化
- ランダムに割り当てることでバイアスを防ぎ、結果の一般化可能性を高める
- 未知の外的要因が平均化され、因果関係を明確にする
-
局所管理
- 時間や場所を区切ってブロックを作り、そのブロック内でのバックグラウンドができるだけ均一になるように管理する
- 局所管理により系統誤差を小さくすることができる
-
反復
- 反復の仕方が違うため不正解
- 無作為化できてないので不正解
- 局所管理で系統誤差をなくせているので正解
- 場所によって水はけの良し悪しが無作為化されてないので不正解
- 局所管理は畑の状態を管理するものではないので不正解
問8
生存関数の確率密度関数
S(t) = P(T>t) = exp(- \lambda t)
\displaylines{
f(t)(\text{確率密度関数}) = \frac{d}{dt} F(t)(\text{累積分布関数})
}
- (1)
確率密度関数はよって④が正解\displaylines{ \text{累積分布関数は}\\ F(t) = P(T \leq t) = 1 - S(t)\\ よって\\ f(x) = \frac{d}{dt} 1-exp(- \lambda t)\\ 合成関数の微分公式より\\ = - exp(- \lambda t) \cdot \frac{d}{dt}(–\lambda t)\\ = - (-\lambda ) \cdot exp(-\lambda t) \\ = \lambda \cdot exp(-\lambda t) }
- (2)
- 平均は0以上の部分積分することで求められるので
\displaylines{ \int_0^{\infty} x \lambda \cdot exp(-\lambda x)\\ 部分積分を用いる\\ = \lambda \Big[x \int \ exp(-\lambda x )dx - \big(x' \int -\frac{1}{\lambda} exp(-\lambda x ) dx \big) \Big]\\ =\lambda \Big[\big[-x\frac{1}{\lambda} exp(-\lambda x) \big]^{\infty}_0 + \frac{1}{\lambda} \big[ - \frac{1}{\lambda}exp(-\lambda x) \big]^{\infty}_0 \Big]\\ = \lambda \Big[\big(0- 0 \big) - \frac{1}{\lambda^2} \big(0 - 1 \big)\Big] \\ = \lambda (\frac{1}{\lambda^2}) = \frac{1}{\lambda} }
- 中央値を算出するには
よって⑤が正解\displaylines{ F(t) = \frac{1}{2}\\ つまり\\ 1 - exp(-\lambda t) = \frac{1}{2}となるtを求める\\ exp(-\lambda t) = \frac{1}{2}\\ log_e \frac{1}{2} = - \lambda t \\ log_e 1 - log_e 2 = - \lambda t \\ 0 - log_e 2 = - \lambda t \\ t = \frac{log_e 2}{\lambda} }
- (3)
- $\frac{1}{\lambda}= 2.0$より
よって②が正解\displaylines{ \frac{log_e 2}{\lambda} = log_e 2 \cdot \frac{1}{\lambda}\\ 0.7 \cdot 2.0 = 1.4 }
問9
-
2元配置分散分析
因子 平方和 自由度 平均平方 F値 因子1 全平均と因子1の水準別平均との平方和 因子1の水準数-1 平方和 / 自由度 因子1平均平方/ 残差平均平方 因子2 全平均と因子2の水準別平均との平方和 因子2の水準数-1 平方和 / 自由度 因子2平均平方/ 残差平均平方 因子1×因子2 「全平均と因子1×因子2の各水準別の平方和」- 「因子1平方和」- 「因子2平方和」 「因子1」-「因子2」-1 平方和 / 自由度 因子1×因子2平均平方/ 残差平均平方 残差 「全体」-「因子1」-「因子2」-「因子1×因子2」平方和 各自由度:「全体」-「因子1」-「因子2」-「因子1×因子2 平方和 / 自由度 全体 全平均と各データの平方和 全データ数-1 -
分散分析表の検定
因子 F分布の自由度 分散分析表のF値 因子1 (因子1の自由度, 残差の自由度) 因子1のF値 因子2 (因子2の自由度, 残差の自由度) 因子2のF値 因子1×因子2 (因子1×因子2の自由度, 残差の自由度) 因子1×因子2のF値 -
プーリング後の分散分析表
因子 平方和 自由度 平均平方 F値 因子1 因子1の平方和 因子1の水準数 - 1 平方和 / 自由度 因子1平均平方 / プール後残差平均平方 因子2 因子2の平方和 因子2の水準数 - 1 平方和 / 自由度 因子2平均平方 / プール後残差平均平方 残差(プール後) 残差平方和 + 交互作用平方和 残差自由度 + 交互作用自由度 平方和 / 自由度 全体 全体の平方和 全データ数 - 1 -
(1)
- 残差平均平方が変わるのでF値は変わるが和は異なるので誤り
- F分布の自由度が変わるのでP値も変わるため誤り
- F値は変化するので誤り
- 正しい
- 残差の自由度は変化する、全体の自由度は変化しないので誤り
-
(2)
- (1)の分散分析表結果より、触媒は統計的に有意では無いため、触媒別に最適とする①、②、③は誤り
- 温度は統計的に有意なので⑤は誤り
- よって④が正解
問10
-
(1)
\displaylines{ 0.2 \cdot 0.1 + 0.3 \cdot 0.4 + 0.5 \cdot 0.1\\ = 0.02 + 0.12 + 0.05 = 0.19 }
よって②が正解
-
(2)
\displaylines{ \text{国会を含み、政治の確率} = 0.2 \cdot 0.3 \cdot (1-0.1) = 0.054\\ \text{国会を含み、経済の確率} = 0.3 \cdot 0.1 \cdot (1-0.4) = 0.018\\ \frac{0.054}{0.018} = 3倍 }
よって④が正解
問11
- (1)
0 → 0 → 1 → 1 → 0 → 1
よって④ - (2)
よって③が正解
\displaylines{ (p_t, q_t)に対して \begin{bmatrix} p_1 & p_2 \\ p_1 & p_2 \end{bmatrix} となるので\\ \begin{bmatrix} \frac{1}{6} & \frac{5}{6} \\ \frac{1}{2} & \frac{1}{2} \end{bmatrix} }
- (3)
定常分布は以下が成り立つよって①が正解\displaylines{ (p_{t+1}, q_{t+1}) = (p_t, q_t) \begin{bmatrix} \frac{1}{6} & \frac{5}{6} \\ \frac{1}{2} & \frac{1}{2} \end{bmatrix}\\ (p_{t+1}, q_{t+1}) = \Big(p_t \frac{1}{6}+ q_t \frac{1}{2} , p_t\frac{5}{6} + q_t \frac{1}{2}\Big)\\ これを解くと\\ p = \frac{3}{5}q\\ p+q = 1の制約より\\ \frac{3}{5}q+ q = 1\\ q = \frac{5}{8}\\ p = \frac{3}{8} }
問12
- (1)
(ア)同じ係数で平均-0.5, 0.5、分散も等しいので同じ山が2つできる分布になるので(b)
(イ)平均2の係数が0.7と大きい分布と平均-1の小さい分布ができるので(c) - (2)
以下のEMアルゴリズム更新式より
E3,P1,M1となるので④が正解
EMアルゴリズムの更新式
-
Eステップ
\gamma_{ik} = P(Z_i = k | x_i, \Theta) = \frac{\pi_k \cdot \mathcal{N}(x_i | \mu_k, \sigma_k^2)}{\sum_{j=1}^K \pi_j \cdot \mathcal{N}(x_i | \mu_j, \sigma_j^2)}
-
Mステップ
- クラスタ ( k ) の新しい混合比率:
\pi_k = \frac{1}{N} \sum_{i=1}^N \gamma_{ik}
- クラスタ ( k ) の新しい平均:
\mu_k = \frac{\sum_{i=1}^N \gamma_{ik} \cdot x_i}{\sum_{i=1}^N \gamma_{ik}}
- クラスタ ( k ) の新しい分散:
\sigma_k^2 = \frac{\sum_{i=1}^N \gamma_{ik} \cdot (x_i - \mu_k)^2}{\sum_{i=1}^N \gamma_{ik}}
-
※用語
- $ \gamma_{ik} $: データ点 $ x_i$がクラスタ$k$に属する確率
- $ \pi_k$: クラスタ $ k $ の混合比率
- $ \mathcal{N}(x_i | \mu_k, \sigma_k^2) $: クラスタ $ k $ の正規分布の確率
問13
[1]
- (1)
よって②が正解
\displaylines{ \hat{Y} = \sum_{h=1}^4 \frac{N_h}{n_h}\sum^{n_h}_{i=1}より\\ = \frac{20}{2}\cdot 2 \cdot 16 + \frac{8}{2}\cdot 2 \cdot 165 + \frac{5}{2}\cdot 2 \cdot 422 + \frac{2}{2}\cdot 2 \cdot 974\\ = 320 + 1320 + 2110 + 1948\ = 5,698\\ \hat{Y} = \frac{5698}{35} =162.8 }
- (2)
- ネイマン配分を用いると
- $層の大きさ \times 標準偏差$の比に合わせると分散が小さくなるので、
\displaylines{ 20\times 17 : 8 \times 69 : 5 \times 182 : 2\times 24\\ = 340 : 552 : 910: 48\\ = 1.47 :2.39 : 3.94 : 0.21 }
- Bの②が正解
[2]
- (1)
- 正しい
- 正しい
- モデル2は切片は変化するが傾きは変化しないので誤り
- 正しい
- 正しい
- (2)
- $y = -2.87655 + 23.16200 + 1.02862x$より
500を代入して、推定値は534.6(t)
⑤が正解
- $y = -2.87655 + 23.16200 + 1.02862x$より
問14
[1]
- (1)
- (ア):線形に分類するのでLDA
- 判別率:$\frac{20}{170}$
- (イ):反対にSVM
- 判別率:$\frac{9}{170}$
- (ア):線形に分類するのでLDA
- (2)論述のため割愛