標本調査
出題範囲と必要知識
| 分野 | 出題範囲 | 実際に回答する内容 | 必要とされる知識・公式 |
|---|---|---|---|
| 母集団と標本 | 標本調査の目的と基本概念 | - 母集団・標本の定義を選択・説明 | - 母集団:調査対象全体 - 標本:母集団から抽出された一部 |
| 抽出方法 | 標本の抽出手法の理解 | - 抽出方法の種類と特徴を識別 | - 単純無作為抽出法: - 系統抽出法: - 層化抽出法: - 多段抽出法: |
| 標本誤差とバイアス | 調査誤差の分類 | - 設問で誤差要因を分類・判断 | - 標本誤差:偶然によるばらつき - 非標本誤差:調査設計・回答ミスなどによる誤差 |
| 標本の代表性 | 標本の適切性評価 | - 標本が母集団を代表しているかを判断 | - 母集団分布との比較・層化の必要性の理解 |
| 推定への応用 | 標本から母数を推定 | - 標本平均・標本比率の利用 | - 推定分野との関連(不偏推定量・標準誤差の理解) |
必須公式
- 母平均(母集団の平均値)
$$
\mu = E[X] = \frac{1}{N}\sum_{i=1}^{N} X_i
$$
母集団の平均値。標本平均はこの母平均の推定量となる。
- 母分散(母集団の分散)
$$
\sigma^2 = E[(X - \mu)^2] = \frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2
$$
母集団全体におけるばらつきを表す。
- 標本平均(母平均の推定値)
$$
\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i
$$
- 標本分散(母分散の不偏推定量)
$$
s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2
$$
-
補足:母分散と標本分散の式が異なる理由
- 標本分散は、母集団の分散を推定するための 不偏推定量(Unbiased Estimator)。
- 標本平均 (\bar{X}) を母平均 (\mu) の代わりに使うと、平均値を推定する段階で 自由度が1減る。
- そのため、分母を (n) ではなく (n-1) にすることで、母分散の期待値と一致するように補正している。
$$
E[s^2] = \sigma^2
$$
-
標準誤差(母平均の推定精度)
$$
SE = \frac{s}{\sqrt{n}}
$$
-
補足:標本誤差の特徴
- 標本サイズ $n$ が大きいほど小さくなる
- 抽出方法に依存(単純無作為抽出が理想)
-
主な抽出法:
| 抽出法 | 特徴 | 出題例 |
|---|---|---|
| 単純無作為抽出法 | 母集団のすべての要素が等しい確率で抽出される | 「母集団の要素を番号付けし、乱数表を用いて標本を抽出する方法はどれか?」 |
| 系統抽出法 | 母集団を一定間隔ごとに区切り、等間隔で標本を選ぶ | 「母集団の名簿から10人ごとに1人を抽出する方法は?」 |
| 層化抽出法 | 母集団を性別・地域などの層に分け、各層から無作為に抽出 | 「性別ごとに母集団を分け、それぞれから標本を取る方法は?」 |
| 集団抽出法 | 母集団を複数の集団に分け、いくつかの集団を無作為に選び、選ばれた集団内のすべてを調査 | 「学校を単位としていくつかの学校を選び、その学校の全生徒を調査する方法は?」 |
| 多段抽出法 | 複数段階で抽出を行う(例:地域→学校→生徒) | 「まず地域を選び、その中の学校を選び、さらに生徒を選ぶ方法は?」 |
- フィッシャーの3原則:
| 原則 | 特徴 |
|---|---|
| 無作為化 | 実験単位をランダムに処理群へ割り当て、偏りをなくし外的要因の影響を平均化する |
| 局所管理 | 類似条件の単位をグループ化(ブロック化)し、実験誤差を小さくして精度を高める |
| 反復 | 同じ処理を複数回繰り返し、偶然誤差を評価・検出できるようにする |
記述統計
出題範囲と必要知識
| 分野 | 出題範囲 | 実際に回答する内容 | 必要とされる知識・公式 |
|---|---|---|---|
| 代表値(平均・中央値・最頻値) | データの中心傾向の把握 | - 平均・中央値・最頻値の計算 - 外れ値の影響の比較 |
- 平均の定義:$\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i$ - 中央値・最頻値の定義と特徴 |
| 散布度(分散・標準偏差・範囲) | データのばらつきの測定 | - 標本分散・標準偏差の計算 - 分散の意味や単位の解釈 |
- 分散:$s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2$ - 標準偏差:$s=\sqrt{s^2}$ |
| 四分位数・箱ひげ図 | 分布の広がりや外れ値の可視化 | - 四分位範囲の計算 - 箱ひげ図から外れ値の判断 |
- 四分位範囲:$IQR=Q_3-Q_1$ - 外れ値基準: $Q_1 - 1.5IQR,\ Q_3 + 1.5IQR$ |
| 度数分布とヒストグラム | データの分布形状の理解 | - 度数表・ヒストグラムの作成 - 度数密度と階級幅の関係 |
- 度数密度:$\text{度数密度}=\frac{\text{度数}}{\text{階級幅}}$ - 相対度数:$\text{相対度数}=\frac{\text{度数}}{\text{総数}}$ |
| 変動係数(CV) | 相対的ばらつきの比較 | - CVの算出と比較 | - 変動係数:$CV=\frac{s}{\bar{X}}$ |
| 共分散・相関係数(記述的) | 2変量の関係の把握 | - 散布図の読み取り - 相関係数の符号・強さの判断 |
- 共分散: $\mathrm{Cov}(X,Y)=$ $\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})$ - 相関係数:$r=\frac{\mathrm{Cov}(X,Y)}{s_X s_Y}$ |
必須公式
-
平均
$$
\bar{X}=\frac{1}{n}\sum_{i=1}^n X_i
$$ -
分散
$$
s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})^2
$$ -
標準偏差
$$
s=\sqrt{s^2}
$$ -
四分位範囲
$$
IQR=Q_3-Q_1
$$ -
変動係数
$$
CV=\frac{s}{\bar{X}}
$$ -
共分散
$$
\mathrm{Cov}(X,Y)=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})
$$ -
相関係数
$$
r=\frac{\mathrm{Cov}(X,Y)}{s_Xs_Y}
$$ -
歪度と尖度
| 指標 | 出題範囲 | 実際に回答する内容 | 必要とされる知識・公式 |
|---|---|---|---|
| 歪度 | 分布の非対称性を表す指標 | - 歪度が正か負かの判断 - 分布の形の解釈(右裾が長い、左裾が長い) - 正規分布との比較 |
- $g_1 > 0$ → 右に裾が長い(右に歪む) - $g_1 < 0$ → 左に裾が長い(左に歪む) - $g_1 = 0$ → 対称分布(例:正規分布) |
| 尖度 | 分布の尖り具合を表す指標 | - 尖度の値から分布の特徴を判断 - 正規分布との比較 |
- $g_2 > 0$ → とがった分布(裾が厚い) - $g_2 < 0$ → 平らな分布(裾が薄い) - $g_2 = 0$ → 正規分布と同程度の尖り |
確率
出題範囲と必要知識
| 分野 | 出題範囲 | 実際に回答する内容 | 必要とされる知識・公式 |
|---|---|---|---|
| 確率の基本法則 | 加法定理・乗法定理 | - 事象の結合・積の確率計算 - 余事象の確率 |
- 加法定理: $P(A\cup B)=P(A)+P(B)-P(A\cap B)$ - 余事象: $P(A^c)=1-P(A)$ |
| 確率変数の演算 | 確率変数の線形変換と和・差・積 | - $E(X+Y)$, $V(X+Y)$, $Cov(X,Y)$ の計算 | - 期待値の線形性: $E(aX+bY)=aE(X)+bE(Y)$ - 分散の性質: $V(aX+bY)=$ $a^2V(X)+b^2V(Y)+2abCov(X,Y)$ - 独立なら $Cov(X,Y)=0$ |
| 条件付き確率 | 条件付き確率の定義と独立性 | - 条件付き確率の計算 - 事象の独立性確認 |
- 条件付き確率: - 独立性:$P(A\cap B)=P(A)P(B)$ |
| ベイズの定理 | 事後確率の更新 | - 医療検査・分類問題などの逆確率の計算 | - ベイズの定理: |
| 離散分布(2級では重点) | 二項分布・ポアソン分布 | - 二項確率の計算(成功確率など) - ポアソン近似の利用 |
- 二項分布: $P(X=k)={nCk},P^k Q^{,n-k}$ - ポアソン分布:$P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}$ |
| 連続分布(正規分布) | 標準正規分布と標準化 | - 標準化による確率計算 - 標準正規分布表の利用 |
- 標準化:$Z=\frac{X-\mu}{\sigma}$ - 区間確率: $P(a<X<b)=P\left(\frac{a-\mu}{\sigma}<Z<\frac{b-\mu}{\sigma}\right)$ |
| 分布の近似 | 二項分布→正規分布の近似 | - $n$大、$p$中程度での近似 | - 正規近似:$Z=\frac{X-np}{\sqrt{np(1-p)}}$ |
| 母比率の検定 | 1つの母比率の検定 | - 標本比率から母比率の検定 - 帰無仮説・対立仮説の設定 |
- 検定統計量:$Z=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}$ - $p$値による判断 |
| 2つの母比率の差の検定 | 2つの母比率の比較 | - 2標本の比率差の検定 - 帰無仮説・対立仮説の設定 |
- 検定統計量:$Z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}}$ - $\hat{p}=\frac{x_1+x_2}{n_1+n_2}$ |
必須公式
1. 期待値(E)の演算ルール
-
線形性
$$
E(aX + bY + c) = aE(X) + bE(Y) + c
$$ -
和の期待値
$$
E(X + Y) = E(X) + E(Y)
$$ -
積の期待値(独立なとき)
$$
E(XY) = E(X)E(Y)
$$
2. 分散(V)の演算ルール
-
基本式
$$
V[X] = E[X^2] - (E[X])^2
$$ -
定数の影響
$$
V(aX + b) = a^2V(X)
$$ -
和の分散
$$
V(X + Y) = V(X) + V(Y) + 2Cov(X, Y)
$$ -
差の分散
$$
V(X - Y) = V(X) + V(Y) - 2Cov(X, Y)
$$
3. 共分散(Cov)の演算ルール
-
定義式
$$
\mathrm{Cov}(X,Y) = E[XY]-E[X]E[Y]
$$
$$
\mathrm{Cov}(X,X) = E[X^2] - (E[X])^2 = V[X]
$$ -
線形性
$$
Cov(aX + bY, cX - dY) = Cov(aX, cX) - Cov(aX, dY) + Cov(bY, cX) - Cov(bY, dY)
$$$$
= acV(X) - adCov(X, Y) + bcCov(X, Y) - bdV(Y)
$$ -
定数の影響
$$
Cov(aX + b, Y) = aCov(X, Y)
$$ -
独立なとき
$$
Cov(X, Y) = 0
$$
4. その他の基本公式
-
加法定理
$$
P(A\cup B)=P(A)+P(B)-P(A\cap B)
$$ -
条件付き確率
$$
P(A|B)=\frac{P(A\cap B)}{P(B)}
$$ -
独立性
$$
P(A\cap B)=P(A)P(B)
$$ -
ベイズの定理
$$
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
$$ -
二項分布
$$
P(X=k)=\frac{n!}{k!(n-k)!}P^k Q^{,n-k} = {nCk},P^k Q^{,n-k}
$$ -
ポアソン分布
$$
P(X=k)=\frac{\lambda^k e^{-\lambda}}{k!}
$$ -
標準化(統計検定量)
$$
Z=\frac{X-\mu}{\sigma}
$$ -
母平均の差の検定(2標本平均 Z/t 検定)
-
1. 標本平均・分散の定義
$$
\bar{X}1=\frac{1}{n_1}\sum{i=1}^{n_1}X_{1i},\quad
\bar{X}2=\frac{1}{n_2}\sum{i=1}^{n_2}X_{2i},\quad
s_1^2=\frac{1}{n_1-1}\sum_{i=1}^{n_1}(X_{1i}-\bar{X}1)^2,\quad
s_2^2=\frac{1}{n_2-1}\sum{i=1}^{n_2}(X_{2i}-\bar{X}_2)^2
$$ -
2. 標本平均の差の分布
(理論形)独立標本のとき
$$
\bar{X}_1-\bar{X}_2 \sim
N!\left(\mu_1-\mu_2,;
\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}
\right)
$$
ここで $\mu_1,\mu_2$ は母平均,$\sigma_1^2,\sigma_2^2$ は母分散。
実務では $\sigma_i^2$ が不明なことが多く、$s_i^2$ で近似(大標本ならZ近似、小標本はt検定)。- 3. 検定統計量の式
帰無仮説 ($H_0:\mu_1-\mu_2=0$) のもとで:
(A) Z検定(母分散既知 または 大標本近似)
$$
Z=\frac{\bar{X}_1-\bar{X}_2}
{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}
;\sim; N(0,1)
$$(B) t検定(Welch:母分散未知・等分散を仮定しない)
$$
t=\frac{\bar{X}_1-\bar{X}_2}
{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}
;\sim; t(\nu),
\quad
\nu=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}
{\frac{(s_1^2/n_1)^2}{n_1-1}+\frac{(s_2^2/n_2)^2}{n_2-1}}
$$
($\nu$ はWelch–Satterthwaiteの自由度)-
4. 信頼区間による判定
2つの母平均の差の ($(1-\alpha)\times100%$) 信頼区間:
(A) Z(母分散既知/大標本近似)
$$
(\bar{X}_1-\bar{X}_2)
\pm
z(\alpha/2),
\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}
$$(B) t(Welch)
$$
(\bar{X}1-\bar{X}2)
\pm
t{,\nu}(\alpha/2),
\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}
$$
ここで $z(\alpha/2)$ は標準正規の上側確率 $\alpha/2$ 点、
$t{\nu}(\alpha/2)$ は自由度 $\nu$ のt分布の上側確率 $\alpha/2$ 点。- 5. 判定基準
信頼区間 解釈 検定結果 0 を含む 「差がない」を否定できない 帰無仮説を棄却しない 0 を含まない 「差がある」が有意 帰無仮説を棄却する - 6. 検定のまとめ
項目 内容 用途 2群の母平均が等しいかを検定 帰無仮説 ($H_0:\mu_1=\mu_2$) 検定統計量 母分散既知/大標本:上記の Z / 母分散未知:上記の t(Welch) 判定基準 信頼区間が 0 を含まなければ帰無仮説を棄却 分布 Z:標準正規 $N(0,1)$ / t:自由度 $\nu$ の t分布 -
メモ:等分散が強く支持される場合のみ、プール分散版(Studentのt)
$t=\dfrac{\bar{X}_1-\bar{X}_2}{s_p\sqrt{1/n_1+1/n_2}}$,
$s_p^2=\dfrac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}$
を用いて良いですが、実務ではWelch法が一般に推奨されます。
-
二項分布の正規近似(統計検定量)
$$
Z=\frac{X-np}{\sqrt{np(1-p)}}
$$ -
母比率の検定(1標本比率のZ検定)
$$
Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1 - p_0)/n}}
$$- 用途:母比率 $p_0$ と標本比率 $\hat{p}$ の差を検定。
-
帰無仮説:$H_0 : p = p_0$
-
検定統計量:
標本比率 $\hat{p} = X/n$ を使うため、
上の基本形を $X = n\hat{p}$ に置き換えると:$$
Z = \frac{n\hat{p} - np_0}{\sqrt{np_0(1 - p_0)}}
= \frac{\hat{p} - p_0}{\sqrt{p_0(1 - p_0)/n}}
$$
-
-
小標本での信頼区間検定、近似的な検定
-
検定統計量:
$$
Z = \frac{\hat{p} -{p_0}}{\sqrt{\hat{p}(1 - \hat{p})/n}}
$$
-
検定統計量:
- 分布:標準正規分布 $N(0,1)$
-
母比率の差の検定(2標本比率 Z 検定)
-
1. 標本比率の定義
$$
\hat{p}_1 = \frac{X_1}{n_1}, \quad
\hat{p}_2 = \frac{X_2}{n_2}
$$ -
2. 標本比率の差の分布
標本が十分大きい場合、2つの標本比率の差は次の正規分布に従うとみなせる:
$$
N!\left(p_1 - p_2,
\frac{p_1(1 - p_1)}{n_1} + \frac{p_2(1 - p_2)}{n_2}
\right)
$$- 3. 検定統計量の式
帰無仮説 ($H_0: p_1 = p_2$) のもとで、検定統計量 (Z) は次の式で求められる:
$$
Z =
\frac{
\frac{X_1}{n_1} - \frac{X_2}{n_2}
}{
\sqrt{
\frac{X_1}{n_1}\left(1 - \frac{X_1}{n_1}\right)\frac{1}{n_1}
+
\frac{X_2}{n_2}\left(1 - \frac{X_2}{n_2}\right)\frac{1}{n_2}
}
}
\sim N(0,1)
$$-
4. 信頼区間による判定
2つの母比率の差の ($(1-\alpha)\times100%$) 信頼区間は次の式で与えられる:
$$
(\hat{p}_1 - \hat{p}_2)
\pm
Z _{\alpha/2}
\sqrt{
\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1}
+
\frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}
}
$$ここで ($Z_{\alpha/2}$) は、標準正規分布の上側確率 ($\alpha/2$) に対応する値(例:95%信頼区間なら ($z_{0.025}=1.96)$)。
- 5. 判定基準
信頼区間 解釈 検定結果 0 を含む 「差がない」可能性を否定できない 帰無仮説を棄却しない 0 を含まない 「差がある」ことが有意 帰無仮説を棄却する - 6. 検定のまとめ
項目 内容 用途 2群の母比率(例:関東と関西)が等しいかを検定 帰無仮説 ($H_0 : p_1 = p_2$) 検定統計量 上記の ($Z$) 判定基準 信頼区間が 0 を含まなければ帰無仮説を棄却 分布 標準正規分布 (N(0,1)) -
推定
出題範囲と必要知識
| 分野 | 出題範囲 | 実際に回答する内容 | 必要とされる知識・公式 |
|---|---|---|---|
| 点推定 | 標本から母数を推定 | - 母平均・母比率の推定値の算出 | - 不偏推定量の性質($E[\bar{X}]=\mu$) |
| 標本分布 | 標本平均・標本分散の分布 | - 標準化・自由度の理解 | - $Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}$ - $t=\frac{\bar{X}-\mu}{s/\sqrt{n}}$ |
| 区間推定(母平均) | t分布による区間推定 | - 信頼区間の上下限の計算 | - $\bar{X}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}$ |
| 区間推定(母比率) | 正規分布による比率推定 | - $\hat{p}$の信頼区間計算 | - $\hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$ |
| 信頼係数と誤差 | 信頼係数と信頼区間の関係 | - 「信頼係数が上がると区間は広がる」などの概念的理解 | - 概念整理(統計量のばらつき・標準誤差) |
必須公式
分布の定義
-
標準正規分布(定義):
$$
Z \sim N(0,1)
$$ -
カイ二乗分布(定義):独立な標準正規変数の二乗和
$$
\chi^2 = \sum_{i=1}^{\nu} Z_i^2
\quad\Rightarrow\quad
\chi^2 \sim \chi^2_{\nu}
$$ -
t分布(定義):標準正規分布とカイ二乗分布の比
$$
t = \frac{Z}{\sqrt{U / \nu}}
\quad \text{ただし } Z \sim N(0,1),; U \sim \chi^2_{\nu},; Z \perp U
$$ -
F分布(定義):2つの独立なカイ二乗分布の比
$$
F = \frac{(U_1 / \nu_1)}{(U_2 / \nu_2)}
\quad \text{ただし } U_1 \sim \chi^2_{\nu_1},; U_2 \sim \chi^2_{\nu_2},; U_1 \perp U_2
$$
推定に用いる公式
-
標準誤差(母平均):
$$
SE=\frac{s}{\sqrt{n}}
$$ -
母平均の区間推定:
$$
\bar{X}\pm t_{\alpha/2}\frac{s}{\sqrt{n}}
$$ -
母比率の区間推定:
$$
\hat{p}\pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$ -
標本平均の標準化(統計検定量)(母分散既知):
$$
Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}
$$ -
t分布(統計検定量)(母分散未知・自由度 = $n-1$):
$$
t=\frac{\bar{X}-\mu}{s/\sqrt{n}}
$$ -
$Z_{\alpha/2}$・$t_{\alpha/2}$ :「有意水準 $\alpha$ において、両側検定で上側確率が $\alpha/2$ となる分布の臨界値(境界値)」(分布表から求める)
例:- 有意水準 $\alpha = 0.05$ のとき
- 標準正規分布では $Z_{0.025} = 1.96$
- 自由度10の t分布では $t_{0.025,10} = 2.228$
- 有意水準 $\alpha = 0.05$ のとき
検定
出題範囲と必要知識
| 分野 | 出題範囲 | 実際に回答する内容 | 必要とされる知識・公式 |
|---|---|---|---|
| 母平均の検定(1標本t検定) | 母平均が既知の値と等しいかの検定 | - 検定統計量 $t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}}$ の計算 - 自由度 $n-1$ - t分布を使ったP値 or 棄却判定 |
- 標本平均・標本分散の計算 - t分布の性質 - P値の解釈 |
| 母平均の差の検定(2標本t検定) | 2群の母平均が等しいかの検定(対応なし/対応あり) | - 検定統計量の計算(等分散 or Welch) - 自由度の指定 - t値と棄却域の比較 |
- 共分散・分散の公式 - 標準偏差と分散の関係 - 等分散仮定とF検定の理解 |
| 母比率の検定 | 母比率が既知の値、または2群で等しいかを検定 | - 検定統計量 $Z = \frac{\hat{p} - p_0}{\sqrt{p_0(1-p_0)/n}}$ - 2群の比率差検定(正規近似) |
- 二項分布の近似 - 標準正規分布 - P値の計算 |
| 分散の検定(F検定) | 2群の母分散が等しいかどうか | - 検定統計量 $F = \frac{s_1^2}{s_2^2}$ - 自由度 $(n_1-1, n_2-1)$ - F分布を使って判定 |
- 分散・標準偏差の計算 - F分布の性質 - 自由度の意味 |
| 適合度検定(カイ2乗検定) | 観測度数が理論分布に従うか(例:サイコロ、カテゴリ分布) | - 検定統計量 $\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$ - 自由度 = (カテゴリ数−1−推定母数の数) - カイ2乗分布で判定 |
- 度数分布表の作成 - 期待度数の計算 - カイ2乗分布の性質 |
| 独立性の検定(クロス表) | クロス集計表における行と列の独立性 | - 検定統計量 $\chi^2 = \sum \frac{(O_{ij}-E_{ij})^2}{E_{ij}}$ - 自由度 = (行数−1)(列数−1) |
- 共分散表・クロス表の扱い方 - 期待度数の計算 - カイ2乗分布 |
| 分散分析(ANOVA) | 3群以上の母平均の差 | - 検定統計量 $F = \frac{\text{群間分散}}{\text{群内分散}}$ - 自由度(群間, 群内) - F分布で判定 |
- 分散の分解 - 共分散・分散の公式 - F分布の性質 |
| 回帰の有意性検定 | 回帰係数が0かどうかの検定 | - t検定による回帰係数の有意性検定 - 決定係数 $R^2$ の理解 |
- 共分散の計算 - 相関係数 $r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}$ - 分散分析との関係 |
必須公式
-
分散
$$
\mathrm{Var}(X) = E[X^2] - (E[X])^2
$$ -
標準偏差
$$
\sigma_X = \sqrt{\mathrm{Var}(X)}
$$ -
共分散
$$
\mathrm{Cov}(X,Y) = E[XY]-E[X]E[Y]
$$ -
相関係数
$$
\rho = \frac{\mathrm{Cov}(X,Y)}{\sigma_X \sigma_Y}
$$ -
正規分布・t分布・F分布・カイ2乗分布 の関係
$$
Z^2 \sim \chi^2(1)
$$
$$
\frac{\chi^2/n}{\chi^2/m} \sim F(n,m)
$$ - P値の解釈:「帰無仮説の下で、観測された統計量以上の値が出る確率」
回帰・相関
出題範囲と必要知識
| 分野 | 出題範囲 | 実際に回答する内容 | 必要とされる知識・公式 |
|---|---|---|---|
| 単回帰分析 | 1変数による線形予測 | - 回帰直線の算出 - 回帰係数の符号と意味の解釈 |
- 回帰式:$\hat{Y}=a+bX$ - 傾き:$b=\frac{\mathrm{Cov}(X,Y)}{\mathrm{Var}(X)}$ |
| 決定係数と寄与率 | どれくらい説明できているかの指標 | - $R^2$ の算出と意味の理解 | - $R^2=r^2$(単回帰の場合) |
| 相関と共分散 | 線形関係の強さと向き | - 相関係数$r$の計算 - 正負と強さの判定 |
- 共分散: $\mathrm{Cov}(X,Y)=E[(X-E[X])(Y-E[Y])]$ - 相関係数:$r=\frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}$ |
| 残差分析 | モデルの当てはまり確認 | - 残差の定義と分布の確認 | - 残差:$e_i=Y_i-\hat{Y}_i$ |
| 回帰係数の検定 | 回帰が有意かどうか | - t検定を用いた回帰係数の有意性判断 | - 検定統計量 $t=\frac{b}{SE(b)}$ |
必須公式
-
回帰式:
$$
\hat{Y}=a+bX
$$ -
回帰係数:
$$
b=\frac{\mathrm{Cov}(X,Y)}{\mathrm{Var}(X)}
$$ -
切片:
$$
a=\bar{Y}-b\bar{X}
$$ -
決定係数:
$$
R^2=r^2
$$ -
相関係数:
$$
r=\frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}
$$ -
残差:
$$
e_i=Y_i-\hat{Y}_i
$$