はじめに
統計検定2級の出題範囲の中で忘れがちな内容や、
試験でなければあまり暗記することがなさそうな内容をまとめました。
試験前の最終確認や、学習すべき範囲の確認にご利用ください。
出題範囲の基本的な概念はひととおり理解している前提です。
なぜこの値や式になるのか、どのような意味があるのかなどについては、
統計学の教科書や他のインターネット上の記事を参照してください。
以下の内容は、公式の出題範囲表と、2016年6月〜2019年6月の出題内容を元にしています。
2019年12月、CBT方式で統計検定2級を受験し、無事合格したので、記事として公開します。
期待値・分散・共分散・標準偏差・相関係数・変動係数
以下の公式は受験者が暗記していること(または試験中すぐに導出できること)を前提として問題が出題されています。
期待値
確率変数$X$の期待値を$E[X]$とすると
\begin{align}
E[X] &= \frac{1}{n}\sum{x_i} \\
&= \int_{-\infty}^{\infty}xf(x)dx \\
E[X+k] &= E[X] + k \\
E[kX] &= kE[X] \\
E[X+Y] &= E[X] + E[Y] \\
E[X-Y] &= E[X] - E[Y] \\
E[XY] &= E[X]E[Y] + Cov[X,Y] \\
E[X^2] &= E[X]^2 + V[X] \\
&= \int_{-\infty}^{\infty}x^2f(x)dx \\
\end{align}
分散
確率変数$X$の分散を$V[X]$とすると
\begin{align}
V[X] &= \frac{1}{n}\sum({x_i}-E[X])^2 \\
&= E[X^2] - E[X]^2 \\
V[X+k] &= V[X] \\
V[kX] &= k^2V[X] \\
V[X+Y] &= V[X] + V[Y] + 2Cov[X,Y] \\
V[X-Y] &= V[X] + V[Y] - 2Cov[X,Y] \\
\end{align}
共分散
確率変数$X, Y$の共分散を$Cov[X,Y]$とすると
\begin{align}
Cov[X,Y] &= E[(X-E[X])(Y-E[Y])] \\
&= E[XY] - E[X]E[Y] \\
2Cov[X,Y] &= V[X+Y]-V[X]-V[Y] \\
-2Cov[X,Y] &= V[X-Y]-V[X]-V[Y] \\
Cov[X,X] &= V[X]
\end{align}
標準偏差
確率変数$X$の標準偏差を$\sigma_x$とすると
\sigma_x = \sqrt{V[X]}
相関係数(ピアソンの積率相関係数)
確率変数$X, Y$の相関係数を$r(X,Y)$とすると
r(X,Y) = \frac{Cov[X,Y]}{\sigma_x\sigma_y}
変動係数
CV = \frac{\sigma_x}{E[X]}
標準化
確率変数Xの標準偏差を $\sigma_x$ とすると、標準化された分布Yは
Y = \frac{X-E[X]}{\sigma_x}
で、
\begin{align}
E[Y] &= 0 \\
V[Y] &= 1 \\
\sigma_y &= 1
\end{align}
となる。
独立な確率分布X, Yの場合
\begin{align}
Cov[X,Y] = 0 \\
r(X,Y) = 0
\end{align}
主な確率分布の種類と特徴
出題範囲に含まれる確率分布の一覧です。
名称 | 期待値 | 分散 | 連続/離散 | 説明/イメージ |
---|---|---|---|---|
離散一様分布 | $\frac{a+b}{2}$ | $\frac{(b-a+1)^2-1}{12}$ | 離散 | サイコロを1回ふったときの目が出る確率など。 |
連続一様分布 | $\frac{a+b}{2}$ | $\frac{(b-a)^2}{12}$ | 連続 | aからbまでの区間で等しい確率を取る分布。 |
ベルヌーイ分布 | $p$ | $p(1-p)$ | 離散 | 成功確率pの独立ベルヌーイ試行を1回行ったときの成功回数の分布。 |
二項分布 | $np$ | $np(1-p)$ | 離散 | 成功確率pの独立ベルヌーイ試行をn回行ったときの成功回数の分布。n=1のときベルヌーイ分布。 |
ポアソン分布 | $\lambda$ | $\lambda$ | 離散 | 時間中に平均λ回発生する事象がk回起きる確率の分布 |
超幾何分布 | $\frac{nK}{N}$ | $\frac{(N-n)n(N-K)K}{N^2(N-1)}$ | 離散 | 二項分布の非復元抽出バージョン |
幾何分布 | $\frac{1}{p}$ | $\frac{(1-p)}{p^2}$ | 離散 | 成功確率pの独立ベルヌーイ試行で初めて成功するまでの試行回数の分布。 |
負の二項分布 | $\frac{pr}{1-p}$ | $\frac{pr}{(1-p)^2}$ | 離散 | 成功確率pの独立ベルヌーイ試行でr回成功するのに必要な試行回数の分布。r=1のとき幾何分布。 |
指数分布 | $\frac{1}{\lambda}$ | $\frac{1}{\lambda^2}$ | 連続 | 時間中に平均λ回発生する事象が1回起きるまでの時間の分布 |
正規分布 | $\mu$ | $\sigma^2$ | 連続 | 標本を大きくしたとき中心極限定理により標本平均の従う分布。 |
標準正規分布 | 0 | 1 | 連続 | 正規分布の期待値を0,分散を1とした場合。 |
χ$^2$分布 | $k$ | $2k$ | 連続 | k個の独立な標準正規分布から取り出した値の2乗和が従う分布。 |
F分布 | $\frac{n}{n-2} \quad (n > 2)$ | $\frac{2n^2(m+n-2)}{m(n-2)^2(n-4)} \quad (n > 4)$ | 連続 | χ$^2$分布に従う自由度(m, n)の2変数の比の分布。 |
t分布 | $0 \quad (k > 1)$ | $\frac{k}{k-2} \quad (k > 2)$ | 連続 | 独立な正規分布$N(\mu,\sigma^2)$から取り出したn(=k+1)個の標本の統計量$t=\frac{\bar{x}-\mu}{\sigma / \sqrt{n}}$が従う分布。 |
標本分布 | $\mu$ | $\frac{\sigma^2}{n}$ | 連続 | 平均$\mu$, 分散$\sigma^2$の母集団から取り出した独立なn個の標本平均$\bar{x}$の分布。 |
連続一様分布、二項分布、ポアソン分布、指数分布、正規分布、標準正規分布、標本分布あたりの期待値と分散は暗記が前提と思われます。
それ以外の分布も、その意味や他の分布との関係は覚えておく必要があるでしょう。
各種用語
歪度
分布が正規分布と比べて左右どちらに偏っているかを表す。
正規分布では0。歪度が0なら左右対称。歪度が正なら右に、歪度が負なら左に裾が長い分布となる。
尖度
分布が正規分布と比べてどれだけ尖っているかを表す。
正規分布では0。尖度が正なら平均付近が尖った分布に、尖度が負なら平べったい分布となる。
第一種の過誤
「ガンでない人をガンであると診断してしまうこと」
帰無仮説が真であるのに、帰無仮説を偽として棄却してしまう誤り。偽陽性。
危険率αと表記されることが多い。
第二種の過誤・検出力
「ガンである人をガンでないと診断してしまうこと」
帰無仮説が偽であるのに、帰無仮説を棄却しない誤り。偽陰性。
βと表記されることが多い。$1-\beta$ を検出力と呼ぶ。
フィッシャーの3原則
-
繰り返し (反復 repetition)
1回だけの実験ではどの程度の誤差がある処理なのか分からないので、何回も実験をすること。偶然誤差の大きさを評価することができる。 -
無作為化 (ランダム化 randomization)
実験結果に影響を与えかねない要因(時刻、気温、日照etc)が、なるべくバラバラになるよう割り当てること。系統誤差を偶然誤差に転化することができる。 -
局所管理 (local control)
実験結果に影響を与えかねない要因(実験場所、時間帯、担当者etc)を、実験のブロック内ではできるだけ均一になるように実験ブロックを小分けにすること。系統誤差も分散分析の要因に取り込むことができる。
これら3つを全て取り入れた実験方法を乱塊法と呼ぶ。
ラスパイレス指数
ラスパイレス指数 = 100 \times \frac{Σ(基準年数量×比較年価格)}{Σ(基準年数量×基準年価格)}
様々な商品の価格を調べるのは比較的簡単だが、購入数量を毎回調べるのは大変なので、過去に調査済みの購入数量を使い続けながら物価変動を表現するのがラスパイレス指数。
ローレンツ曲線・ジニ係数
階級値ごとの累積相対度数を折れ線にしたものがローレンツ曲線。
完全平等線(45度線)とローレンツ曲線の間の面積の2倍がジニ係数。
ジニ係数は必ず0から1の間の値を取る。
ジニ係数が0なら格差はない(全員の富が等しい)。
ジニ係数が1なら格差が最大(一人が全ての富を独占している)。
抽出法
-
単純無作為抽出
母集団からランダムに一つづつ標本を抽出する方法。 -
系統抽出
母集団に通し番号を付け、等間隔で標本を抽出する方法。母集団がランダムに並んでいないと、偏った結果が出ることがある。 -
集落抽出(クラスター抽出)
母集団から無作為にいくつかグループを選び、そのグループから全数を抽出する方法。例えばまず学校を選び、その全生徒に対して調査を行う場合。 -
多段抽出
母集団から無作為にいくつかグループを選び、そのグループからさらに無作為にいくつかグループを選び...を繰り返し、最後のグループから全数を抽出する方法。 -
層別抽出(層化抽出)
母集団をいくつかの層(グループ)に分け、それぞれの層から単純無作為抽出を行う方法。層内はなるべく均質になるようにする。例えば性別、年代、地域などで層を分ける。
ベイズの定理
事象Aが起こるという条件のもとで、事象Bが起きる確率 $P(B|A)$ は
P(B|A) = \frac{P(A|B)P(B)}{P(A)}
チェビシェフの不等式
平均からk標準偏差以上離れた値は全体の $1/k^2$ を超えることはない。
確率変数Xの平均を$\mu$、標準偏差を$\sigma$とすると、任意の実数 $k > 0$ に対して
P(|X-\mu| \geq k\sigma) \leq \frac{1}{k^2}
連続修正(連続性の補正)
本来は離散値である確率を連続型分布で近似すると、小標本の場合の近似精度が悪いため、0.5を加減して精度を改善する手法。
偏相関係数
他の変数の影響を除外した場合の相関係数。
確率変数$X, Y$の $Z$ の影響を除いた偏相関係数を$\rho_{xy,z}$とすると、
\rho_{xy,z} = \frac{r(X,Y)-r(X,Z)r(Y,Z)}{\sqrt{1-r(X,Z)^2}\sqrt{1-r(Y,Z)^2}}
平均の検定と推定
母平均の推定
標本数を $n$ 、標本平均を $\bar{x}$、不偏分散を $\sigma^2$ とおく。
標準誤差を
se = \frac{\sigma}{\sqrt{n}}
とし、自由度 $v$ のt分布のパーセント点を $t_{v,p}$ とおくと、有意水準$\alpha$での母平均 $\mu$ の信頼区間は
\bar{x} - t_{v,\alpha/2} \times se \leq \mu \leq \bar{x} + t_{v,\alpha/2} \times se
1群の検定・対応のある2群の検定
標本平均を $\bar{x}$ 、母平均を $\mu$ とし、平均の差 $d$ を
$d = \bar{x}-\mu$ (1群の検定の場合)
$d = \bar{x_1}-\bar{x_2}$ (対応のある2群の検定の場合)
とおくと、統計量t
t = \frac{d}{se} = \frac{d}{\frac{\sigma}{\sqrt{n}}}
は自由度 $n-1$ のt分布に従う。
対応のない2群の検定(平均の差の検定)
プールした分散(併合分散、合併した分散) $\sigma^2$ を
\sigma^2 = \frac{(n_1-1)\sigma_{1}^2+(n_2-1)\sigma_{2}^2}{n_1+n_2-2}
とすると、統計量t
t = \frac{d}{se} = \frac{\bar{x_1}-\bar{x_2}}{\sqrt{\sigma^2(\frac{1}{n_1}+\frac{1}{n_2})}}
は自由度 $n_1+n_2-2$ のt分布に従う。
比率の検定と推定
母比率の推定・1群の検定
標本数が十分に多いとき、標本比率$\hat{p}$は正規分布に従う。
標準誤差を
se = \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
とし、正規分布のパーセント点を $z_p$ とおくと、有意水準$\alpha$での母比率pの信頼区間は
\hat{p} - z_{\alpha/2} \times se \leq p \leq \hat{p} + z_{\alpha/2} \times se
2群の検定(比率の差の検定)
標準誤差seを
\hat{p} = \frac{\hat{p_1}n_1+\hat{p_2}n_2}{n_1+n_2} \\
se = \sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}
とすると、標本数が十分に多いとき統計量z
z = \frac{\hat{p_1}-\hat{p_2}}{se}
は正規分布に従う。
適合度検定・独立性の検定
観測度数をO、期待度数をEとおくと、統計量 $\chi^2$ は
\chi^2 = \sum{\frac{(O - E)^2}{E}}
(適合度検定の場合)自由度 列数-1 の $\chi^2$ 分布に従う。
(独立性の検定の場合)自由度 (列数-1)×(行数-1) の $\chi^2$ 分布に従う。
分散の検定と推定
母分散の検定・母分散の信頼区間
不偏分散を$\hat{\sigma}^2$、母分散を$\sigma^2$とおくと、
\chi^2 = \frac{(n-1)\hat{\sigma}^2}{\sigma^2}
は自由度 $n-1$ の$\chi^2$分布に従う。
自由度$v$の$\chi^2$分布のパーセント点を $\chi^2_{v,p}$ とおくと、有意水準$\alpha$での母分散$\sigma^2$の信頼区間は
\frac{(n-1)\hat{\sigma}^2}{\chi^2_{n-1, \alpha/2}} \leq \sigma^2 \leq \frac{(n-1)\hat{\sigma}^2}{\chi^2_{n-1, 1-\alpha/2}}
等分散の検定(分散の比の検定)
2群の不偏分散の比
F = \frac{\hat{\sigma_1}^2}{\hat{\sigma_2}^2}
は自由度$(n_1-1,n_2-1)$のF分布に従う。
一元配置分散分析
総標本数を $n$、群の数を $r$、群$i$の標本数を $n_i$ 、群$i$の標本を $x_i$ 、xの標本平均を $\bar{x}$ とすると、
平方和 | 自由度 | 平均平方和 | F値 | |
---|---|---|---|---|
要因(群間) | (a) $\sum_{i=1}^{r}{n_i(\bar{x_i}-\bar{x})^2}$ | (d) $r-1$ | (h) $\frac{(a)}{(d)}$ | (j) $\frac{(h)}{(j)}$ |
誤差(群内) | (b) $\sum_{i=1}^{r}\sum_{j=1}^{n_i}{(x_{ij}-\bar{x_i})^2}$ | (e) $n-r$ | (i) $\frac{(b)}{(e)}$ | |
全体 | (c) $\sum_{i=1}^{r}\sum_{j=1}^{n_i}(x_{ij}-\bar{x})^2$ = (a)+(b) | (f) $n−1$ = (d)+(e) |
(j)が自由度 ((d), (e)) のF分布に従う。(片側検定)
回帰分析結果の読み方
出題されるのはRによる回帰分析の出力結果です。
-
Intercept (切片)
-
Estimate (回帰係数の推定値)
-
Std. Error (標準誤差)
回帰係数の推定値の標準誤差。 -
t value (t値)
「回帰係数が0である」という帰無仮説に対するt検定の統計量。
t value = Estimate / Std. Error -
Pr(>|t|) (p値)
「回帰係数が0である」という帰無仮説に対するt検定のp値。 -
Residual Standard Error (残差の標準誤差)
-
degrees of freedom (自由度)
標本数 - 説明変数の数(切片も含む) -
Multiple R-squared (決定係数 $R^2$)
回帰式の当てはまりの良さを示す値。
1以下の実数をとり、1に近いほど当てはまりが良い。
標本値を $y$、標本平均を $\bar{y}$、予測値を $\hat{y}$とおくと
$R^2 = 1 - \frac{\sum(y_i-\hat{y_i})^2}{\sum(y_i-\bar{y})^2}$ -
Adjusted R-squared (自由度調整済み決定係数)
決定係数は説明変数が増えるほど増加するため、その影響を調整した決定係数。
標本数を $n$ 、(切片を含む)説明変数の数を $k$ とおくと
${R'}^2 = 1- (1-R^2)\frac{n-1}{n-k}$ -
F-statistic (F値)
「(切片を除く)全ての回帰係数が0である」という帰無仮説に対するF検定の統計量と自由度(DF)、p値。