統計検定3級(新出題範囲)受験に向けて必要な公式をまとめておきます。
こちらにPDF一枚で公式が確認できるシートを用意しました。
参考にしている書籍は、改訂版 日本統計学会公式認定 統計検定3級対応、
改訂版 日本統計学会公式認定 統計検定2級対応の2冊です。
2021年度から出題範囲に、下記の3項目が追加されます。
- 相関と回帰
- 確率分布
- 統計的な推測
一度、公式の読み方を覚えてしまったほうが2級に進むときに楽になるので、3級できっちり覚えておきましょう。3級の出題範囲は統計学一般ですと記述統計とよばれる部分です。
3級を網羅的に学習することで、2級の教科書の第2章までの学習を簡単に進められます。
筆者も文系で公式アレルギーですが、3級からであれば、ゆっくりと統計学の世界に足をふみ入れる事ができそうなのでがんばります。
基本の公式
- 算術平均
\mu=\frac{1}{n} \sum_{i=1}^{n} x i
- 偏差平方和
\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}
- 分散
\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}{n}
- 標準偏差
\sigma=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-\mu\right)^{2}}{n}}
偏差平方和を算出して、そこから分散(V)、標準偏差(σ)の算出は繰り返し利用します。
また、偏差値の算出についても度々出題されます。
共分散と相関係数
- 共分散
s_{x y}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)
共分散とはxとyの偏差の積の和をn個で割ったものです。
\operatorname{Cov}(X, Y)=E[X Y]-\mu_{X} \mu_{Y}
簡単な求め方を覚えておきましょう。
- 相関係数
r=\frac{s_{x y}}{s_{x} s_{y}}
sx,syはそれぞれxとyの標準偏差です。sxyはxとyの共分散です。
確率
- 反復試行の確率
{ }_{n} C_{k} p^{k}(1-p)^{n-k}
確率pの試行をn回繰り返すときにぴったりk回の事象が起きる確率を計算します。
- 条件つき確率
P_{A}(B)=\frac{P(A \cap B)}{P(A)}
事象Aが起きる条件のもとでが起きる確率を計算します。
- ベイズの定理
P(A \mid B)=\frac{P(B \mid A) P(A)}{P(B)}
条件つき確率を反転させたものです。結果から原因を導きます。
確率変数の平均と分散
離散型確率変数
- 平均
E(X)=\sum_{k} x_{k} \cdot P\left(X=x_{k}\right)
- 分散
V(X)=\sum_{i=1}^{n}\left(x_{i}-\mu\right)^{2} p_{i}
- 分散 (略式)
V[X]=E\left[X^{2}\right]-(E[X])^{2}
略式の各値の偏差の2乗を平均の2乗でひいたものは、2級でも多様するので覚えておきましょう。
確率変数(ax + b)の場合
- 平均
E(a X+b)=a E(X)+b
- 分散
V(a X+b)=a^{2} V(X)
(ax + b)の場合の式変換を覚えておきましょう。
確率分布
離散型
2項分布
1. 期待値(平均)
E[X]=n p
- 分散
V(X)=n p(1-p)
- 標準偏差
\sqrt{V(X)}=\sqrt{n p(1-p)}
2項分布はコインの裏/表のような、結果が2種類に分類される場合に利用できます。
2項分布は正規分布に近似する性質もあるので覚えておきましょう。
連続型確率分布
正規分布
- 期待値
E(X)=\mu
- 分散
V(X)=\sigma^{2}
- 標準偏差
\sigma
区間推定
母比率μの信頼区間
- 標準化
Z=\frac{X-\mu}{\sigma}
確率変数𝑋が正規分布𝑁(μ,σ2)に従うときに標準化をすると、𝑍は平均0,分散1の標準正規分布𝑁(0,1)に従うので、標準化公式を用いてZ値を算出し、更に正規分布表を用いて確率計算ができます。
- 母比率μの95%信頼区間
\bar{x}-1.96 \times \sqrt{\frac{\sigma^{2}}{n}} \leq \mu \leq \bar{x}+1.96 \times \sqrt{\frac{\sigma^{2}}{n}}
こちらも同様に公式を用いてZ値を算出し、更に正規分布表を用いて確率計算ができます。
母比率pの信頼区間
詳しい説明はこちら
1. 正規分布
N(p,\frac{{p}(1-p)}{n})
1. 分散
V(X)= \frac{{p}(1-p)}{n}
1. 標準偏差
\sigma = \sqrt\frac{{p}(1-p)}{n}
- 統計量Zの正規分布近似
Z=\frac{\widehat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}
1. 母比率pの95%区間推定
\widehat{p}-1.96 \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}} \leq p \leq \widehat{p}+1.96 \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}
\widehat{p}-z \frac{\alpha}{2} \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}} \leq p \leq \widehat{p}+z \frac{\alpha}{2} \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}
95%区間推定の場合には$z \frac{\alpha}{2}$の部分が1.96になります。
これは標準正規分布における上側確率がとなる値(z値)を表します。
母平均と同様に区間推定を考えられる。
pが母比率、p(ハット)が標本比率である。
1. 必要なサンプルサイズ
2 \times z \frac{1-\alpha}{2} \times \sqrt{\frac{\widehat{p}(1-\widehat{p})}{n}}
$z \frac{1-\alpha}{2}$は95%の信頼区間の場合には、1.96で表される
回帰
回帰分析
- βの求め方
\hat{β}=\frac{Sxy}{S^2x}
共分散(Sxy)が分かる場合にはこちらを利用します。
\hat{β}=rxy(\frac{sy}{sx})
相関係数(rxy)が分かる場合にはこちらを利用します。
- αの求め方
\hat{α}=\bar{y}-\hat{β}\bar{x}
- 回帰式を用いて予測
{y}=\hat{α}+\hat{β}x
- 決定係数
R^2=\frac{SR}{ST}
SRは回帰による平方和、STは総平方和になります。
回帰直線の場合にのみ、Rの2乗は相関係数(r)の2乗と等しくなります。
その他
- 変動係数
距離や時間などの比例尺度にのみ利用できます。
標準偏差を平均で割ったものです。
CV = \frac{σ}{\bar{x}}
- 偏差値
偏差値は平均を50、標準偏差を10に設定したもの下記の式で算出できます。
得点-平均点を標準偏差で割って10をかけて50を足したものです。
\frac{X-μ}{σ}×{10} + 50