はじめに
こちら統計検定準1級のテキストでおなじみ、「統計検定準1級対応 統計学実践ワークブック」の例・例題解答をまとめた記事の第二弾です。
ワークブックのテキストはこちら
今回の記事ではワークブックの11〜20章について解答をまとめています。
注意事項
- 著作権の兼ね合いで問題は記述していません
- 問題の解答方法は1つでは無いので、ワークブックの解法とは違う解き方をしているものも存在します
個人的なメモを記事にまとめたものなので、記述ミスなどがあるかもしれません。
その場合は優しく教えていただけるとありがたいです笑
関連記事
また、過去記事として以下の記事内容も一緒に学習していたので併せて参考にしてみてください
1.例題解説 1~10章 統計学実践ワークブック
2.例題解説 21~32章 統計学実践ワークブック
3.統計用語の解説がわかりやすかったサイトチートシート
今後受験される方の参考になれば幸いです、
中盤はいろんな分野が含まれていますが頑張ってください!
それではどうぞ!
11章 正規分布に関する検定
例題
-
問 11.1
-
(1)
統計量 $T = \frac{\mu_1 - \mu_0}{\sqrt{\frac{\sigma^2}{n}}}$ より
\displaylines{ \frac{125 - 120}{\sqrt{\frac{10^2}{10}}}\\ = \frac{5\cdot \sqrt{10}}{10}\\ = 1.581.. }
-
(2)
自由度 $10-1=9$ なので $2.262$
-
(3)
1,2より棄却限界域を超えてないので棄却できない
-
(4)
\displaylines{ \frac{125-120}{\sqrt{\frac{10^2}{n}}}>T_{0.025}(n -1)\\ \frac{\sqrt{n}}{2}>T_{0.025}(n -1)\\ n > 2^2 \cdot T_{0.025}(n -1)\\ }
こちらを超えるのは $n=18$ のとき
-
-
問 11.2
2標本の場合の検定
-
(1)
プールした分散:$\frac{(n_A - 1)U_A + (n_B -1)U_B}{n_A + n_b -2}$より
\displaylines{ \frac{9\cdot8^2 + 9 \cdot 10^2}{10+10-2}\\ = \frac{576+ 900}{18} \\ = 82 }
-
(2)
2標本の場合:分散が未知の検定統計量Tは
\displaylines{ T= \frac{\bar{X_A} - \bar{X_B}}{\sqrt{\frac{s^2}{n_A}+ \frac{s^2}{n_B}}} }
$s^2$:プールした分散(母分散が異なる場合はそれぞれの分散を利用する)
より
\displaylines{ \frac{125 - 115}{\sqrt{\frac{82}{10} + \frac{82}{10}}}\\ = \frac{10}{4.049} = 2.469... }
-
(3)
自由度18の両側5%なので2.101
-
(4)
棄却される
-
12章 一般の分布に関する検定法
例
-
例1
母比率の検定
-
漸近正規性を用いた検定
二項分布の比率の検定において、漸近正規性を用いて棄却限界域を決めて検定を行う
$\theta = \theta_0$とする帰無仮説の元で$n→\infty$として
\displaylines{ \frac{\sqrt{n}(\hat{\theta} - \theta_0)}{\sqrt{\theta_0(1- \theta_0)}} }
が標準正規分布に収束する
※$\theta_0(1- \theta_0)$:分散
上記より$Z$値は
\displaylines{ \frac{\sqrt{n}(\hat{\theta} - \theta_0)}{\sqrt{\theta_0(1- \theta_0)}}\\ = \frac{\sqrt{30}(\frac{12}{30} - 0.5)}{\sqrt{0.5(1- 0.5)}}\\ = \frac{0.5477}{0.5}\\ = -1.0954.. }
となるので、上側2.5%の1.96より小さいため棄却されない
-
尤度比検定の場合
尤度比検定の場合は
\displaylines{ 2\cdot n \big( \hat{\theta} \cdot \log \frac{\hat{\theta}}{\theta_0} + (1- \hat{\theta})\ \log\ \frac{1- \hat{\theta}}{1-\theta_0}\big) \geq X^2_\alpha(1) }
のようにカイ二乗分布を用いて検定する
\displaylines{ 2\cdot 30(0.4\ \log\ \frac{0.4}{0.5} + (1- 0.4)\ \log\ \frac{1-0.4}{1-0.5}) }
計算すると1.21となる
自由度は「 $観測値の数 - 指定されたパラメータ数$ 」より1
上側5%は3.84なので棄却できない
-
-
例2
-
適合度検定
それぞれの発生数を$x$として
\displaylines{ T(x) = \sum^I_{i=1}\frac{(x_i - np_i)^2}{np_i} }
がΧ二乗分布に従う
このときの自由度は
「 $自由度(df) = カテゴリ数 - 1 - 推定されたパラメータ数$ 」
となる(単純帰無仮説の場合は0になる)
パラメータ数
理論モデル(期待値の計算)に使うパラメータをデータから推定している場合、そのパラメータ分だけ自由度が減ります。
例:
モデルが「全カテゴリで同じ確率 $p=\frac{1}{k}$ 」である場合、推定パラメータ無し(全て均一と仮定される)
しかし、データから「母集団の平均や分散」を推定して期待値を計算する場合、1つ以上のパラメータを推定するため、自由度がその分減少する
-
回答
母比率の両側検定において、カテゴリは2帰無仮説は $p_1 = \theta_0$ 、 $p_2 = 1- \theta_0$ に対応する
これより
\displaylines{ \frac{(x_1 - n\theta_0)^2}{n\theta_0} + \frac{((n - x_1) - n(1-\theta_0))^2}{n(1- \theta_0)}\\ = \frac{(x_1 - n\theta_0)^2}{n\theta_0} + \frac{(x_1 - n\theta_0)^2}{n(1- \theta_0)}\\ = \frac{n(\hat\theta - \theta_0)^2}{\theta_0(1-\theta_0)} }
となり、母比率の両側検定の二乗と一致する。
-
-
例3
二元分割表とは、カテゴリ変数 ( X )(行)と ( Y )(列)の頻度分布を表す表
独立性の仮説とは、「行変数 ( X ) と列変数 ( Y ) が独立である」という仮説独立の場合は確率同士を掛けることが表せるので
$H_0: p_{ij} = p_i p_j$
独立性の検定
-
観測データと期待値
独立性の仮説の下での期待値(期待頻度) $E_{ij}$ の計算
\displaylines{ E_{ij} = \frac{n_{i\cdot} \cdot n_{\cdot j}}{n} }
ここで、
- $n_{i\cdot} = \sum_{j} n_{ij}$: 行 $i$ の合計
- $n_{\cdot j} = \sum_{i} n_{ij}$: 列 $i$ の合計
- $n = \sum_{i} \sum_{j} n_{ij}$ : 総頻度
-
Χ二乗統計量の定義
観測データ $n_{ij}$ と期待値 $E_{ij}$ のずれを計測するために、 $\chi^2$ 統計量を定義:
\displaylines{ \chi^2 = \sum_{i=1}^{I} \sum_{j=1}^{J} \frac{(n_{ij} - E_{ij})^2}{E_{ij}} }
-
自由度の計算
二元分割表自由度
$\text{自由度} = (\text{行数} - 1) \cdot (\text{列数} - 1)$
- 分割表の観測頻度 $n_{ij}$ は、行と列の合計値(周辺合計)によって制約を受ける
- $I$ 行と $J$ 列の表では、行と列の周辺合計の合計値が $(I + J - 1)$ 個の独立な制約を与える
- 全体のデータ数(セルの数)は $I \cdot J$ 個あるため
\displaylines{ I \cdot J - (I + J - 1) = (I-1) \cdot (J-1) }
-
例題
-
問 12.1
Χ二乗統計量:$$
T(x) = \sum_{i=1}^n \frac{(x_i - E[x])^2}{E[x]}
$$より
平均は$\frac{7}{49} =7$
$$
T(x) = \sum_{i=1}^n \frac{(x_i - 7)^2}{7}
$$上記を計算すると
15.14となる
自由度6のΧ二乗の棄却限界域は12.59より、棄却して曜日ごとに差があるとする
-
問 12.2
-
(1)
ポアソン分布は
平均:$\lambda$
分散:$\lambda$
より
標準偏差を二乗した$1.7^2 = 2.89$
を平均2.99が近い事からポアソン分布に近似できると主張している
-
(2)
確率密度関数に値を代入する
\displaylines{ \frac{2.99^x\cdot e^{-2.99}}{x!} }
こちら1年あたりの期待度数なので、69を掛ける
\displaylines{ 69\cdot \frac{2.99^x\cdot e^{-2.99}}{x!} }
-
(3)
- 帰無仮説 (H₀): 台風の年ごとの上陸回数は特定の分布(例えばポアソン分布)に従う
- 対立仮説 (H₁): 台風の年ごとの上陸回数は特定の分布に従わない
上陸回数ごとの期待度数を計算し、実測との差からΧ二乗統計量を計算する
\displaylines{ x^2 = \sum_{i}^n \frac{(x_i - E_i)^2}{E_i} }
問題より、統計量は16.37
自由度:$カテゴリ数- 1- パラメータ数$
より今回は平均の$\lambda$を推定するのでパラメータは1として
$10-1-1 = 9$となる
自由度9の棄却限界域は16.92より
棄却できない
統計量が大きくなるのは、平均から大きく外れた10回の部分が乖離度が大きくなっていることが上げられる
-
(4)
6以上をまとめると期待度数は5.71となる
観測度数も4となり、Χ二乗統計量は2.27となる
自由度9の棄却限界域と比べても小さくなるのであてはまりが良くなる
-
-
問 12.3
母比率の差の検定帰無仮説が$\theta_1 = \theta_2$なので
\displaylines{ \frac{\hat{\theta_1} - \hat{\theta_2}}{\sqrt{\frac{\hat{\theta_1}(1-\hat{\theta_1})}{n_1}+\frac{\hat{\theta_2}(1-\hat{\theta_2})}{n_2}}} }
結果を代入して
男性:$\frac{40}{114} = 0.35$
女性:$\frac{62}{107} = 0.58$
\displaylines{ \frac{0.35 - 0.58}{\sqrt{\frac{0.35\cdot 0.65}{114}+\frac{0.58 \cdot 0.42}{107}}}\\ = \frac{-0.23}{0.0653}\\ = 3.522.. }
上記から帰無仮説を棄却する→男女で差があるとする
13章 ノンパラメトリック法
例
-
例1
ウィルコクソンの順位和検定を実施する
帰無仮説:分布は等しい
対立仮説:分布はズレており、B郡のほうが大きい
A郡とB郡を小さい順に並べて順位和を計算する
帰無仮説が正しいとすると、順位はランダムに振り分けられるので、その順位の組み合わせは
{}_nC_{x}={}_7C_{3} = 35
35通り
順位和は
A郡:9
B郡:19
よりA郡が9以下になる組み合わせは
順位和 組み合わせ 6 1,2,3 7 1,2,4 8 1,3,4 8 1,2,5 9 1,2,6 9 1,3,5 9 2,3,4 の7通りである
よって
$\frac{7}{35} = 0.2$
-
正規分布近似で近似することもできる
平均:$\frac{m(m+n+1)}{2}$
分散:$\frac{mn(m+n+1)}{12}$
m:A郡のサンプルサイズ
n:B郡のサンプルサイズ
-
-
例2
平均を用いる
A郡の平均:$\frac{30+20+52}{3} = 34$
B郡の平均:$\frac{40+50+35+60}{4} = 46.25$
7この数値からランダムに3つ取得した際に34以下が出る確率をP値とする
7から3つ取得する組み合わせは
${}7C{3} = \frac{7!}{3! \cdot 4!} = 35$通り
平均34以下になる組み合わせは以下の5通り
20,30,35
20,30,40
20,30,50
20,30,52
20,35,40
$$
P値 = \frac{5}{35} = 0.143...
$$
-
例3
0が5人なので35人が対象となる正規分布近似を用いるので、
平均:$\frac{n(n+1)}{4} = 315$
分散:$\frac{n(n+1)(2n+1)}{24} = 3727.5$
Z値を求める
$$
\frac{420 - 315}{\sqrt{3727.5}} = 1.72
$$片側5%で見たときに1.64以上あるので、棄却できる
-
例4
-
クラスカル・ウォリス検定
複数の群の分布に差があるかを求める検定
帰無仮説:n群の分布は同じ
対立仮説:n群の分布は同じではない
以下の統計検定量で計算可能
\displaylines{ \frac{12}{N(N+1)}(n_A(\bar{R_A} - \text{median})^2 + n_B(\bar{R_B} - \text{median})^2 + n_C(\bar{R_C} - \text{median})^2 ) }
$N$:サンプルサイズ
$n_A, n_B, n_C$ :群ごとのサンプルサイズ
$\text{median}$:順位の中央値
$\bar{R}$:順位平均
こちらが「$群の数-1$」が自由度のΧ二乗分布を用いて近似できる
\displaylines{ \frac{12}{20(20+1)}(5(15 - 10.5)^2 + 5(14 - 10.5)^2 +5(7-10.5)^2 + 5(6 - 10.5)^2)\\ = 9.285... }
自由度3の棄却限界域は7.81なので棄却できる
-
-
例5
-
公式
\displaylines{ \text{スピアマン順位相関係数} = 1 - \frac{6 \sum_{i=1}^n (x_i - y_i)^2}{n(n^2 - 1)} }
\displaylines{ \text{ケンドールの順位相関係数} = \frac{P-N}{\frac{1}{2}n(n-1)} }
$i$ より大きいナンバーを全て比較して $P,N$ を算出
$P$ :群ごとに順番が一致している組
$N$ :群ごとに順番が一致してない組
$n$ : $i$ の数
スピアマン順位相関係数
\displaylines{ 1-\frac{6\cdot (0 + 1+1+4+1+1+0)}{7(7^2- 1)}\\ = 1-\frac{48}{336}\\ = 1-\frac{1}{7}\\ = 0.857... }
ケンドールの順位相関係数
符号が同じ $P$ は18
符号が異なる $N$ は3より
\displaylines{ \frac{18-3}{\frac{1}{2}7(7-1)}\\ = \frac{15}{21} = 0.714.. }
-
例題
- 問 13.1
-
(1)
B郡の順位和:14
可能性のある組み合わせは ${}_6C_3=20$ 通り
14以上が出る組み合わせは2通りから、0.1
-
(2)
7人の場合、組み合わせは ${}_7C_3=35$ 通りより
$\frac{1}{35}= 0.028..$ で3%以下になるので7人
-
(3)
組み合わせは $2^3=8$ 通り
この場合の正順位和は5になる
5以上が出る組み合わせは2通りより0.25
-
(4)
5人の場合に
$\frac{1}{2^5} = 0.031$ より5人
-
14章 マルコフ連鎖
例
-
例1
独立試行は定常マルコフ連鎖の特別な状態と捉えられる
どんなときでも
$p(x_n=1) = q$
$p(x_n=2) = 1-q$
$\pi_n = (q, 1-q)$→$\pi = (q,1-q)$ となるはず
推移確率行列は
Q=\begin{bmatrix} q & 1-q \\ q & 1-q \end{bmatrix}
となるどんな $\pi_0$ でも $Q$
-
例2
-
$Q_1$
\displaylines{ Q=\begin{bmatrix}0 & \frac{1}{2} & \frac{1}{2} \\\frac{1}{2} & 0 & \frac{1}{2} \\\frac{1}{2} & \frac{1}{2} & 0\end{bmatrix} }
$\pi = (a, b, c)$より
\displaylines{ \pi Q = (a, b, c)\begin{bmatrix}0 & \frac{1}{2} & \frac{1}{2} \\\frac{1}{2} & 0 & \frac{1}{2} \\\frac{1}{2} & \frac{1}{2} & 0\end{bmatrix}\\ }
\displaylines{ a = \frac{1}{2}b +\frac{1}{2}c\\ b = \frac{1}{2}a + \frac{1}{2}c\\ c = \frac{1}{2}a + \frac{1}{2}c }
$a+b+c = 1$より
\displaylines{ 2a = b + c\\ a + 2a = 1\\ a = \frac{1}{3}\\ }
計算を進めると
\displaylines{ b = \frac{1}{3}\\ c = \frac{1}{3} }
よって
\displaylines{ \pi = \left(\frac{1}{3}, \frac{1}{3}, \frac{1}{3}\right) }
上記が確率分布である条件を満たし、一様分布となる
-
$Q_2$
\displaylines{ Q=\begin{bmatrix} \frac{1}{3} & \frac{2}{3} & 0 \\ \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \\ 0 & 0 & 1 \end{bmatrix} }
\displaylines{ a \cdot \frac{1}{3} + b \cdot \frac{1}{3} + c \cdot 0 = a\\ a \cdot \frac{2}{3} + b \cdot \frac{1}{3} + c \cdot 0 = b\\ a \cdot 0 + b \cdot 0 + c \cdot 1 = c\\ }
\displaylines{ \frac{1}{3}a + \frac{1}{3}b = a\\ \frac{2}{3}a + \frac{1}{3}b = b\\ \frac{1}{3}b + c = c }
正規化条件
$a+b+c=1$
計算すると
\displaylines{ a=0\\ b=0\\ c=1 }
この推移確率行列$Q$は吸収状態となっている(状態 3 に入るとそこから出られない)
十分時間が経つと確率分布は状態 3 に完全に集中し、他の状態に確率が分布することは無い
これより
\displaylines{ \pi = (0, 0, 1) }
の定常分布になる
-
-
例3
A→B、B→C以外はその場に留まっていることに注意する
この場合の確率は
\displaylines{ (1-\theta)^{25}\cdot \theta^5 \cdot (0.9-\theta)^{49} \cdot \theta^{1} \cdot 0.9^{50} }
対数尤度にして$\theta$に依存しない部分を省くと
\displaylines{ \log\ L(\theta) = 25\log\ (1-\theta)+5 \log\ \theta + 49 \log\ (0.9-\theta) + \log\ \theta }
上記を微分した結果を0とすると
\displaylines{ -\frac{25}{1-\theta}+ \frac{5}{\theta}- \frac{49}{0.9 - \theta} + \frac{1}{\theta} = 0\\ -\frac{25}{1-\theta}+ \frac{6}{\theta}- \frac{49}{0.9 - \theta} = 0\\ \frac{-25(0.9-\theta)\theta - 49(1-\theta)\theta + 6(1-\theta)(0.9-\theta)}{(1-\theta)(0.9-\theta)\theta} = 0\\ 80\theta^2 - 82.9\theta + 5.4 = 0 }
解の公式 $\theta = \frac{-b \pm \sqrt{b^2- 4ac}}{2a}$ より
\displaylines{ \frac{- (-82.9) \pm \sqrt{(-82.9)^2 - 4\cdot 80\cdot 5.4}}{2\cdot 80}\\ = \frac{-(-82.9) \pm \sqrt{6872.41 - 1728}}{160}\\ = \frac{82.9 \pm 71.72}{160}\\ }
$\theta= 0.966, 0.0069$
$\theta <0.5$より約0.07となる
例題
-
問 14.1
-
(1)
推移する確率として
\displaylines{ Q=\begin{bmatrix} \frac{1}{6} & \frac{5}{6} \\ \frac{1}{2} & \frac{1}{2} \end{bmatrix} }
-
(2)
$\pi = [a, b]$
\displaylines{ \pi Q = [a\ b] \begin{bmatrix} \frac{1}{6} & \frac{5}{6} \\ \frac{1}{2} & \frac{1}{2} \end{bmatrix} = \pi\\ a + b =1 }
より
\displaylines{ \frac{1}{6}a + \frac{1}{2}b = a\\ \frac{5}{6}a + \frac{1}{2}b = b\\ a= \frac{3}{8},\ b = \frac{5}{8}\\ [\frac{3}{8} \ \frac{5}{8}] }
-
-
問 14.2
-
(1)
\displaylines{ Q=\begin{bmatrix} \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \\ \frac{1}{6} & \frac{1}{2} & \frac{1}{3}\\ \frac{1}{9} & \frac{2}{9} & \frac{2}{3} \end{bmatrix} }
-
(2)
\displaylines{ \pi_1 = \begin{bmatrix} 0 & 0 & 1\\ \end{bmatrix} \begin{bmatrix} \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \\ \frac{1}{6} & \frac{1}{2} & \frac{1}{3}\\ \frac{1}{9} & \frac{2}{9} & \frac{2}{3} \end{bmatrix} = \begin{bmatrix} \frac{1}{9} & \frac{2}{9} & \frac{2}{3}\\ \end{bmatrix}\\ \pi_2 = \begin{bmatrix} \frac{1}{9} & \frac{2}{9} & \frac{2}{3}\\ \end{bmatrix} \begin{bmatrix} \frac{1}{3} & \frac{1}{3} & \frac{1}{3} \\ \frac{1}{6} & \frac{1}{2} & \frac{1}{3}\\ \frac{1}{9} & \frac{2}{9} & \frac{2}{3} \end{bmatrix}\\ = \begin{bmatrix} \frac{4}{27} & \frac{8}{27}&\frac{5}{9} \end{bmatrix} }
-
(3)
\displaylines{ \pi = \begin{bmatrix} a&b&c \end{bmatrix}\\ として\\ \pi Q = \pi\\ a +b+c = 1 }
計算すると
\displaylines{ \begin{bmatrix} \frac{1}{6} & \frac{1}{3}&\frac{1}{2} \end{bmatrix} }
に収束する
-
-
問 14.3
-
(1)
状態空間$S$:それぞれの場所の傘の本数$[0, 1, 2]$
初期分布$\pi_0$:最初はそれぞれに傘を1本ずつおいてスタートする
家からスタートするとして、家には1本あり、それ以外は無いので、
\displaylines{ \pi_0 = \begin{bmatrix} 0 & 1 & 0 \end{bmatrix} }
状態推移確率$Q$:
行:移動前の元いた場所の傘の本数
列:移動後目的地の傘の本数\displaylines{ Q = \begin{bmatrix} p(0→0) & p(0→1) & p(0→2) \\ p(1→0) & p(1→1) & p(1→2) \\ p(2→0) & p(2→1) & p(2→2) \\ \end{bmatrix}\\ = \begin{bmatrix} 0 & 0 & 1(天候に関係なく2本ある状態)\\ 0 & 1-\theta(雨がふらない確率) & \theta(雨が降った確率)\\ 1-\theta(雨が振らなかったら)& \theta(雨が降ったら)& 0 \end{bmatrix}\\ = \begin{bmatrix} 0 & 0 & 1\\ 0 & 1-\theta & \theta\\ 1-\theta & \theta& 0 \end{bmatrix}\\ }
-
(2)
1→1→2→0→2→1→1→1
上記の移動時にそれぞれ以下の確率となっている
$1-\theta ,\theta ,1-\theta ,1,\theta ,1-\theta ,1-\theta$
尤度関数
\displaylines{ L = \theta^2 \cdot (1-\theta)^4 \cdot 1 }
対数尤度
\displaylines{ \log\ L = 2 \log \theta + 4 \log(1-\theta) }
微分した結果が0になる$\theta$を求める
\displaylines{ \frac{\partial}{\partial \theta} = \frac{2}{\theta} - \frac{4}{(1-\theta)} = 0\\ \frac{2(1-\theta) - 4\theta}{\theta (1-\theta)} = 0\\ \theta = \frac{1}{3} }
-
(3)
(2)より推移確率行列$Q$は
\displaylines{ Q= \begin{bmatrix} 0 & 0 & 1\\ 0 & \frac{2}{3} & \frac{1}{3}\\ \frac{2}{3} & \frac{1}{3} & 0 \end{bmatrix} }
定常分布における0の確率を求める
\displaylines{ \pi Q = \pi\\ \begin{bmatrix} a & b & c \end{bmatrix} \begin{bmatrix} 0 & 0 & 1\\ 0 & \frac{2}{3} & \frac{1}{3}\\ \frac{2}{3} & \frac{1}{3} & 0 \end{bmatrix} = \begin{bmatrix} a & b & c \end{bmatrix} }
\displaylines{ a + b + c = 1 }
上記を計算すると
$a = \frac{1}{4}$、$b = \frac{3}{8}$ 、$c = \frac{3}{8}$
\displaylines{ \begin{bmatrix} \frac{1}{4} & \frac{3}{8} & \frac{3}{8} \end{bmatrix} }
よって0の確率は $\frac{1}{4}$
-
15章 確率過程の基礎
例
-
例1
- 標準ブラウン運動:
- 独立定常増分過程である
- 各$t$に対して周辺分布$B_t \sim N(0, t)$
- $B$はパスが連続
より
\displaylines{ B_{t+h} - B_t = \mu h + \sigma (W_{t+h} - W_t) }
$W_{t+h} - W_t$は$N(0, h)$となるので
$B_{t+h} - B_t \sim N(\mu h, \sigma^2 h)$なので定常増分性を持つ
$W$の独立増分性より、$B$も独立増分性がある
$W_t$のパスは連続なので$B_t$も連続となる
したがって$B$はブラウン運動の定義を満たす
- 標準ブラウン運動:
-
例2
-
複合ポアソン過程
例:地震に対する損害額
\displaylines{ S(t) = \sum_{i=1}^{N(t)} U_i }
$N(t)$:ポアソン過程
$U_i$:ポアソン過程発生時における総被害額のモデル
-
事前情報
$X$:$X_t = \sum_{k=1}^{N(t)} U_k$の複合ポアソン過程とする$N(t)$は$t$時点までのポアソン過程で、強度$\lambda$のポアソン分布に従う
$E[N_t] = \lambda t$
$U_t$は独立同分布に従うランダム変数で、各時点での発生する値
$E[U_k] = \mu$
$V[U_k] = \sigma^2$
-
(1)
基本事項
-
$E[X_t]$
以下に変換できる
\displaylines{ E[X_t] = E\big[ \sum_{k = 1}^{N(t)} U_t \big] }
$N_t$が確率変数のため条件付き期待値を導入する
$N(t)$が$n$回と与えられた時の条件付き期待値
\displaylines{ E \Big[ \sum_{k=1}^{N(t)} U_k| N(t) = n \Big]\\ 条件付期待値にするとN(t)を置き換えられる\\ = \sum_{k=1}^n E[U_k] = n \mu }
$E[X_t]$全体で見るとすべての$N_t$に対して期待値の重み付け平均として表現できる
\displaylines{ E[X_t] = E\big[E[X_t| N(t)] \big]\\ = E\big[E[\sum_{k =1}^{N(t)} U_k| N(t)] \big]\\ N(t)の場合の条件付き期待値を代入する\\ = E \big[ N(t) \mu \big]\\ = \mu\cdot E[N(t)]\\ = \mu \cdot \lambda t\\ = \lambda \mu t }
-
$V[X_t]$
$V[X_t] = E[X_t^2] - (E[X_t])^2$を考える
$E[X_t^2]$から計算する
\displaylines{ E[X_t^2] = E\Big[(\sum_{k=1}^{N(t)} U_t)^2\Big]\\ 和の二乗公式を用いて\\ E\Big[ \sum_{k=1}^{N(t)}U_k^2 + 2 \sum_{1\le i \le j \le n} U_i U_j \Big] }
$i,j$は独立なので$E[U_i U_j] = E[U_i]\cdot E[U_j]$が成り立つことを考慮して
$N(t) = n$と固定すると
\displaylines{ E[X_t^2 | N(t) = n] = \sum_{k=1}^n E[U_k^2] + 2 \sum_{1\le i \le j \le n} E[U_i]\cdot E[U_j] }
$\sum_{1\le i \le j \le n}$は重複を除く全ペアの和なので${}_nC_2 = \frac{n!}{(n-2)! \cdot 2!} = \frac{n(n-1)}{2}$ 通りある
$E[U_k^2] = V[U_k] + (E[U_k])^2 = \sigma^2 + \mu^2$ より
\displaylines{ E[X_t^2 | N(t) = n] =\sum_{k=1}^n(\sigma^2 + \mu^2) + 2 \cdot \frac{n(n-1)}{2} \mu^2\\ = n(\sigma^2 + \mu^2) + {n(n-1)} \mu^2\\ = n\sigma^2 + n^2 \mu^2 }
よって
\displaylines{ E[X_t^2] = E\Big[ N_t \sigma^2 + N_t^2 \mu^2 \Big]\\ = E[N_t]\cdot E[\sigma^2] + E[N_t^2] \cdot E[\mu^2] }
$E[N_t] = \lambda t$
$V[N_t] = \lambda t$ (ポアソン分布の性質より)
$E[N_t^2]= V[N_t] + (E[N_t])^2 = \lambda t + (\lambda t)^2$ を用いて
\displaylines{ E[X_t^2] = E[N_t]\cdot E[\sigma^2] + E[N_t^2] \cdot E[\mu^2]\\ = \lambda t \sigma^2 + \mu^2 (\lambda t + (\lambda t)^2) }
\displaylines{ V[X_t] = E[X_t^2] - (E[X_t])^2\\ = \lambda t \sigma^2 + \mu^2 (\lambda t + (\lambda t)^2) - (\lambda \mu t)^2\\ = \lambda t \sigma^2 + \lambda t \mu^2 + \lambda^2 t^2 \mu^2 - \lambda^2 t^2 \mu^2 \\ = \lambda t \sigma^2 + \lambda t \mu^2\\ = \lambda t (\sigma^2 + \mu^2) }
-
-
(2)
\displaylines{ E\Big[e^{s X_t} \Big] = E \Big[ e^{s \sum^{N_t}_{k=1} U_k} \Big] }
$N_t$が与えられた場合の条件付き期待値として$N_t$を固定する
\displaylines{ M_{X_t}(s) = E\Big[ E[e^{s \sum^{N_t}_{k=1} U_k}| N_t] \Big] }
$U_k$は互いに独立のため
\displaylines{ E\Big[ \prod^{N_t}_{k=1} E\big[ e^{s U_k} \big] \Big] = E\Big[\prod^{N_t}_{k=1} \phi(s) \Big]\\ = E\big[ \phi(s)^{N_t} \big] }
上記の期待値を求めるには確率と掛けて合計する加重平均を取る
$N_t$はポアソン過程なので確率は
\displaylines{ p(N_t) = \frac{ (\lambda t)^{N_t} e^{-\lambda t}}{N_t!} }
上記を用いてモーメント母関数を計算する
\displaylines{ M_{X_t}(s) = \sum^{\infty}_{n=0}\phi(s)^{N_t} \cdot \frac{ (\lambda t)^{N_t} e^{-\lambda t}}{N_t!} }
無限和の公式$\sum^{\infty}_{n=0}\frac{(a\cdot b)^n}{n!} = e^{ab}$より
\displaylines{ M_{X_t}(s) = e^{-\lambda t} \cdot e^{\lambda t \phi (s)}\\ = e^{\lambda t (\phi (s) - 1)} }
-
例題
-
問 15.2
\displaylines{ Z_t = X_{t \Delta} - X_{(t-1)\Delta}\\ = \sigma(B_t - B_{t-1}) \sim N(0,\sigma^2 \Delta)に従う }
$n$:100(分割した数)
$\Delta$:1($\frac{1}{100}$とするため)
上記を置くことで、パラメータ推定公式
\displaylines{ \frac{1}{n} \sum^n_{k=1} Z_k = \hat{\mu}\Delta \\ \frac{1}{n} \sum^n_{k=1} Z_k^2 = \hat{\sigma}^2\Delta + (\hat{\mu} \Delta)^2 }
を利用することができる
今回は$\hat{\mu} \Delta$は0とする
-
(1)
$\Delta = 1$とおいて
\displaylines{ \hat{\sigma^2}\Delta = V = 0.0225 }
$V = \sigma^2$ より、
\displaylines{ \sigma = \sqrt{0.0225} = 0.15 }
-
(2)
$\Delta = \frac{1}{10}$とおいて
\displaylines{ \hat{\sigma}^2\Delta = V_1 = 0.00625\\ \sigma^2 = 0.0625\\ \sigma = 0.25 }
-
-
問 15.2
-
(1)
不良品の発生が稀な現象としたときに、累積数の増加が直線的になっているので$N_t$の強度は一定
また、不良品の発生は独立のため、独立増分性を持つ
そのため$N = (N_t)_{t\ge0}$を仮定することは妥当
-
(2)
\displaylines{ \hat{\lambda} = \frac{\text{イベントの総回数}}{\text{観測時間}} }
より
\displaylines{ \frac{558}{300} = 1.86 }
-
(3)
15例2と同様の解き方を行う
-
$E[X_t]$
以下に変換できる
\displaylines{ E[X_t] = E\big[ \sum_{k = 1}^{N(t)} U_k \big] }
$N_t$が確率変数のため条件付き期待値を導入する
$N(t)$が$n$回と与えられた時の条件付き期待値
\displaylines{ E \Big[ \sum_{k=1}^{N(t)} U_k| N(t) \Big]\\ 条件付期待値にするとN(t)を固定する\\ = E\Big[ \sum_{k=1}^{N_t} E[U_k] \Big] = E[N_t q]\\ = E[N_t] q= \lambda t q }
$t= 1$より、$\lambda q$
-
$V[X_t]$
$V[X_t] = E[X_t^2] - (E[X_t])^2$を考える
$E[X_t^2]$から計算する
\displaylines{ E[X_t^2] = E\Big[(\sum_{k=1}^{N(t)} U_k)^2\Big]\\ 和の二乗公式を用いて\\ E\Big[ \sum_{k=1}^{N(t)}U_k^2 + 2 \sum_{1\le i \le j \le n} U_i U_j \Big] }
$i,j$は独立なので$E[U_i U_j] = E[U_i]\cdot E[U_j]$が成り立つことを考慮して
$N(t)$の条件付き期待として
\displaylines{ E[X_t^2 | N(t)] = \sum_{k=1}^{N_t} E[U_k^2] + 2 \sum_{1\le i \le j \le n} E[U_i]\cdot E[U_j] }
$\sum_{1\le i \le j \le n}$は重複を除く全ペアの和なので${}_nC_2 = \frac{n!}{(n-2)! \cdot 2!} = \frac{n(n-1)}{2}$ 通りある
ベルヌーイ分布の期待値、分散から$E[U_k^2] = V[U_k] + (E[U_k])^2 = q(1-q) + q^2$
\displaylines{ E\Big[E[X_t^2 | N(t)] \Big]=E\Big [\sum_{k=1}^{N_t}(q(1-q) + q^2) + 2 \cdot \frac{N_t(N_t-1)}{2} q^2 \Big]\\ = E\Big[ N_t(q(1-q) + q^2) + {N_t(N_t - 1)} q^2 \Big]\\ = E\Big[ N_t q +N_t^2 q^2 - N_t q^2\Big]\\ = E\Big[N_tq(1-q) +N_t^2 q^2 \Big]\\ = E[N_t]q(1-q) + E[N_t^2] q^2\\ }
$E[N_t^2] = V[N_t]+ (E[N_t])^2 = \lambda t + (\lambda t)^2$より
\displaylines{ = \lambda t \cdot q(1-q) + q^2(\lambda t + (\lambda t)^2)\\ = \lambda t\ q + q^2 (\lambda t)^2 }
$t=1$より$\lambda q + q^2\lambda^2$
よって$V[X_1]$は
\displaylines{ V[X_1] = E[X_1^2] - (E[X_1])^2\\ = \lambda q + q^2 \lambda^2 - (\lambda q)^2\\ = \lambda q }
-
-
(4)
差分を取ることで
\displaylines{ \frac{1}{n} \sum^n_{k=1} Z_k = \hat{\mu}\Delta \\ \frac{1}{n} \sum^n_{k=1} Z_k^2 = \hat{\sigma}^2\Delta + (\hat{\mu} \Delta)^2 }
を利用できる
$\Delta = 1$として
\displaylines{ \hat{\mu} \Delta = \lambda q = 1.53\\ 1.86 q = 1.53\\ q = 0.8225... }
-
16章 重回帰分析
例題
-
問 16.1
-
(1)
自由度調整済み決定係数ともとにモデルを選択すると
$Adjusted\ R-squared = 0.8202$のモデル3
-
(2)
有意水準5%で選ばれる変数は
AMT:過剰摂取したアミトリプチリン量
GEN:性別
-
-
問 16.2
-
(1)
最小二乗推定量:Estimateの部分
T統計量:
\displaylines{ T統計量 = \frac{\text{最小二乗推定量}}{\text{標準偏差(の推定量)}}\\ = \frac{\text{Estimate}}{\text{std. Error}}\\ = \frac{0.27388}{0.22967}\\ = 1.1924... }
この場合の自由度は
\displaylines{ \text{データ数} - \text{共変量の数} - 1 \\ = 111 -5 -1 = 105 }
両側検定とすると有意水準0.1としても棄却域1.66より小さく有意とは言えない
-
(2)
最も適しているAICを用いるとモデル1が適切である
F-値の観点でも十分有意で妥当
決定係数はモデル2のほうが大きいが予測誤差の観点ではAICを利用する
各情報は以下の用途に適している
-
決定係数:モデルの説明力を評価する
単一モデルの適合度や直感的な解釈が求められる場合
-
F-値:モデル全体の有意性を評価する統計量
モデル全体の有意性を評価したい場合
モデルが複数の説明変数を持つ場合
-
AIC:モデルの適合度と複雑差のバランスの良さ(値が小さいほどよい)
複数のモデルを比較する場合
予測誤差の比較
-
-
-
問 16.3
-
(1)
予測の観点では効果検証スコアを用いるため、cvを見る
一番低い$log \lambda = 0$ つまり1となる
-
(2)
-
正則化
$L_1$正則化:ラッソ回帰:データに多くの不要な変数がある場合に利用する
スパース性(係数の一部がゼロになる)がある
$L_2$正則化:リッジ回帰:係数の大きさを全体的に抑えて、過学習を防ぎ安定的な解を求める -
問題の見方
ノルム:ベクトルの大きさ(スカラー値)を測るための指標
グラフ縦軸:回帰係数(のノルム)
グラフ横軸:横軸
-
$\lambda$
- $\lambda = 0$ :正則化が0になるのでノルムが全体的に大きい
- $\lambda = e^{-2}$(=0.135335):ノルムが小さくなっている
-
$\alpha$
- $\alpha = 0$:$L_2$正則化に寄る
- $\alpha = 0.5$:半々
- $\alpha = 1$:$L_1$正則化に寄る
これより、
$\lambda = 0$ は全体的にノルムが大きい(b)
$\lambda = e^{-2}$はそれ以外となる
また、$\alpha$は
$\alpha = 0$は全体的にノルムが抑えられている(a)
$\alpha =1$は変数自体が0になっているものが多い(c)
$\alpha = 0.5$ 0,1の間にある(d)
-
-
(3)
-
(a)
非ゼロの数が減っていないので$L_1$が0になっている→$\alpha = 0$
-
(b)
非ゼロの数が早く少なくなり、ノルムが抑えられているパラメータがすぐに減少しているので$\alpha = 1$
-
(c)
bよりも非ゼロの減少スピードが遅く、ノルムの減少も遅いので$\alpha = 0.5$
-
-
17章 回帰診断法
例
-
例1
- 回帰診断法の解説
- 残差プロット
- X軸:予測値$\hat{y}$、Y軸:残差$e_i$をプロット
- 仮定を満たしている場合は残差0を中心にまんべんなく分散する
- 正規Q-Qプロット
- 残差の分位点と標準正規分布の累積分布関数を分位点をプロットしたもの
- 誤差の正規性が満たされているときは傾き1の直線になる
- 標準化残差の絶対値の平方根プロット
- X軸:予測値$\hat{y}$ 、Y軸:標準化残差絶対値の平方根$\sqrt{|標準化残差|}$
- 予測値に対してY軸が増加or減少していると等分散性が成り立ってない
- leverage(てこ比)とCookの距離
- てこ比:ハット行列の対角成分、回帰係数の与える影響度を表す
- Cookの距離が0.5を超えると外れ値の可能性がある
- X軸:Leverage、Y軸:標準化残差
- https://statisticsschool.com/%E3%80%90%E7%B5%B1%E8%A8%88%E6%A4%9C%E5%AE%9A%E6%BA%96%E4%B8%80%E7%B4%9A%E3%80%91%E5%9B%9E%E5%B8%B0%E8%A8%BA%E6%96%AD%E6%B3%95%E3%81%A8%E3%81%AF%EF%BC%9F%EF%BD%9C%E6%AE%8B%E5%B7%AE%E3%83%97%E3%83%AD/
- 残差プロット
- 解答
- 残差プロット
- 残差は等分散にはなっていない
- 予測値が高いほうが残差の散らばりが大きくなっている
- 正規Q-Qプロット
- 概ね直線となっていて、正規生の仮定は満たされていそう
- 標準化残差の絶対値の平方根プロット
- 残差プロットと同様に予測値が高い方に分散が偏っている
- leverageとCookの距離
- てこ比の低い方に分散が固まっている
- 度の健も0.5は超えてないが、一部の件は外れ値の可能性がある
- 残差プロット
- 回帰診断法の解説
例題
- 問 17.1
-
残差プロット
外れ値を除外したことで誤差が分散したが、まだ多少偏っている
-
正規Q-Qプロット
同様に概ね直線で正規性が確認できる
-
標準化誤差の絶対の平方根プロット
残差プロットと同様
-
leverageとCookの距離
0.5を超えるものは無いが、1,10.24は外れ値の可能性あり
-
18章 質的回帰
例題
-
問 18.1
-
(1)
0.5となる$L_1$
\displaylines{ \log \frac{\pi}{1-\pi} = -3.77714 + 0.14486 \cdot L_1 }
上記の$\pi =0.5$とすれば良いので
\displaylines{ \log \frac{0.5}{1-0.5} = 0より\\ 0=-3.77714 + 0.14486 \cdot L_1\\ L_1 = 26.07.. }
30の場合の確率
\displaylines{ \log \frac{\pi }{1-\pi} = -3.77714 + 0.14486 \cdot 30\\ \frac{\pi}{1-\pi} = e^{0.56866}\\ \pi = e^{0.56866} - \pi e^{0.56866} \\ \pi = \frac{e^{0.56866}}{1+e^{0.56866}}\\ = \frac{1.765..}{1 + 1.765..}=0.63833 }
-
(2)
ロジスティック回帰をオッズ式にすると
\displaylines{ \log \frac{\pi}{1-\pi} = -3.77714 + 0.14486 \cdot L_1\\ \frac{\pi}{1-\pi} = e^{-3.77714} \cdot e^{0.14486 \cdot L_1}\\ = e^{-3.77714} \cdot (1.1558)^{L_1}\\ }
オッズ比は
\displaylines{ \frac{e^{-3.77714} \cdot (1.1558)^{L_1+2}}{e^{-3.77714} \cdot (1.1558)^{L_1}}\\ = (1.1558)^{2} = 1.3358... }
1.3倍になる
-
-
問 18.2
-
(1)
\displaylines{ \log \frac{\pi}{1-\pi} = -2.37766 - 0.06777 x_1 + 0.69531 x_2 + 0.87194 x_3\\ \pi = \frac{e^{-0.87818}}{1+e^{-0.87818}} }
$\pi = 0.293..$
-
(2)
推定リスク(オッズ比)を算出する
\displaylines{ \frac{e^{-2.37766 - 0.06777 x_1 + 0.69531\cdot 1 + 0.87194 x_3}}{e^{-2.37766 - 0.06777 x_1 + 0.69531 \cdot 0 + 0.87194 x_3}}\\ = e^{0.69531}\\ = 2.004... }
-
(3)
$Obesity$の標準偏差は0.28509より
\displaylines{ 0.69531 \pm 1.96 \cdot 0.28509 }
区間は$0.13654 〜 1.25408$となる
係数0.13654のオッズ比:1.146300
係数1.25408のオッズ比:3.50461
1.1〜3.5倍になる
-
-
問 18.3
プロビット回帰式\displaylines{ \Phi(x) = \int^x_{\infty} \frac{1}{\sqrt{2\pi}} e^{\frac{1}{2}y^2} dy }
として
\displaylines{ \Phi^{-1}(p) = -1.37312 - 0.03865 x_1 + 0.39996 x_2 + 0.46508 x_3 }
-
(1)
$\pi = \Phi(-0.54673)$より
-0.54673はZ値となるので、標準正規分布表より、-0.54673以下になる確率は0.29116
-
(2)
限界効果:ある説明変数(独立変数)がわずかに変化したときに、目的変数(従属変数)がどの程度変化するかを表す指標
回帰式は
\displaylines{ \pi =\Phi( -1.37312 + 0.39996 x_2) }
\displaylines{ P(y=1|x) = \Phi(\beta_0 + \beta_1 x_1 + \dots + \beta_k x_k) }
\displaylines{ \text{限界効果} = \frac{\partial P(y=1|x)}{\partial x_j}\\ = \phi( -1.37312 + 0.39996 x_2) \cdot 0.39996 }
$x_2$を0とすると(ダミー変数の場合は0にすることが多い)
\displaylines{ \phi (-1.37312) \cdot 0.39996 \\ = 0.155 \cdot 0.39996\\ = 0.06199.. }
-
確率の差分
0の場合
$Z値=-1.37312$→問題より、0.085344
1の場合:
$Z値= -1.37312 + 0.39996 =-0.97124$→0.166
\displaylines{ 0.166 - 0.0853 = 0.0807... }
1.1%
-
-
-
問 18.4
ポアソン回帰式平均得点を $\lambda$ とすると
$$
log\ \lambda = 6.34 - 0.0813 x_1 + 0.0196 x_2
$$-
(1)
ポアソン回帰が正しいとすると、
チーム走行距離が1km増えると$e^{-0.0813} = 0.92$倍
スプリントが1増えると$e^{0.0196} = 1.019$倍
となる
-
(2)
スプリントは優位となるため説明力があるがチーム走行距離は優位では無い
-
19章 回帰分析その他
例
- 例1:上限以下しか速度を計測できないので右打ち切り
- 例2:余剰となる資産が0以上しか観測できないので左打ち切り
- 例3:最高値や最低値を取っている学生は違いを観測できないので両側打ち切り
例題
-
問 19.1
-
(1)
トービットモデルの尤度関数
\displaylines{ L(\beta, \sigma) = \prod_{i:y_i>L} \frac{1}{\sigma} \phi \left(\frac{y_i - x_i^T \beta}{\sigma}\right) \prod_{i:y_i<L} \Phi \left(\frac{L- x_i^T \beta}{\sigma}\right) }
$\prod_{i:y_i>L} \frac{1}{\sigma} \phi \left(\frac{y_i - x_i^T \beta}{\sigma}\right)$ :検閲されたデータ$(y_i < L)$の場合の確率
$\phi$:正規分布の確率密度
$\prod_{i:y_iL)$の場合の確率密度
$\Phi$:正規分布の累積分布関数
より今回は積雪量は0を下回ることは無いので、0での左打ち切り
\displaylines{ \prod_{i:y_i>0}\frac{1}{\sigma} \phi \left(\frac{y_i - (\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2})}{\sigma}\right) \cdot \prod_{i:y_i<0}\Phi \left(\frac{0- (\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2})}{\sigma}\right) }
-
(2)
AIC:小さいほうが良いモデル
\displaylines{ AIC = -2 \cdot \text{最大対数尤度} + 2 \times \text{パラメータ数} }
パラメータは$切片、誤差項、説明変数の数$より、
計算すると日照時間+平均気温が良いモデル
-
-
問 19.2
-
生存関数: $S(t)=P(T>t)$ で表し、時間 $t$ までにイベントが発生せず生存している確率
-
確率密度関数: $S(t)$ を微分したもの
-
ハザード関数: $h(t) = \frac{f(t)}{S(t)}$ で表し、$t$ 時点までイベントが起こらなかったとき,$t$ 時点以降でイベントが起こる瞬間的な確率
確率密度関数から生存関数を求める
\displaylines{ S(t) = P(T>t) = \int^{\infty}_{t} f(t) \, dt\\ = \int^{\infty}_t\lambda e^{-\lambda x} \, dx\\ = \left[\lambda \cdot - \frac{1}{\lambda } e^{ - \lambda x}\right]^{\infty}_t\\ = \lim_{x \to \infty}(- e^{-\lambda x} ) + e^{-\lambda t}\\ = \lim_{x \to \infty}(- \frac{1}{e^{\lambda x}} ) + e^{-\lambda t}\\ = 0 + e^{-\lambda t} }
$e$の積分公式:$\int e^{ax} , dx = \frac{1}{a} e^{ax}$
\displaylines{ h(t) = \lim_{\Delta t \to 0} \frac{P(t \leq T < t + \Delta t \mid T \geq t)}{\Delta t} = \frac{S'(t)}{S(t)}\\ = \frac{\lambda e^{-\lambda t}}{e^{-\lambda t}}\\ = \lambda }
-
-
問 19.3
-
基準ハザード関数:全共変量が0のとき、続く$t$時点以降でイベントが起こる瞬間的な確率
$h_0(t)$
-
基準累積ハザード関数:基準ハザード関数を積分したもの
$H_0 (t) = \int^{t}_{0} h_0(u) du$ -
比例ハザードモデル:
$h(t | x) = h_0(t)\cdot \exp(x^T \beta)\ \ (h_0(t) > 0)$
比例ハザードモデルの両辺を積分
\displaylines{ \int^t_0 h(t) \, dt = \exp(x^T \beta) \int^t_0 h_0(t)\, dt }
問題文の $H_0(t) = \int^t_0 h_0(u), du$ より
\displaylines{ \int^t_0 h(t)\, dt = \exp(x^T \beta) H_0 (t) }
左辺を計算する
\displaylines{ \int^t_0 h(t)\, dt = \int^t_0 - \frac{S'(t)}{S(t)} \, dt\\ = [-\log S(t)]^t_0\\ = -\log S(t) -(- \log S(0))\\ }
生存関数の微分公式:$\frac{d}{du} \left[ -\log S(t) \right] = -\frac{S'(t)}{S(t)}$
$t=0$ のときは必ず生きているので、 $S(0)=1$
よって $-\log S(t)$
元の式の対数を取ると
\displaylines{ \log(-\log S(t)) = \log\big(\exp(x^T \beta) H_0 (t) \big)\\ = x^T \beta + \log H_0 (t) }
問題文の式が得られた
- 比例ハザードモデルの解説:
-
比例ハザードモデル
$h(t | x) = h_0(t)\cdot \exp(x^T \beta)\ \ (h_0(t) > 0)$
- $h(t \mid x)$:時点$t$における共変量$x$による条件付きハザード関数
- $\exp(\beta^T X)$ 共変量 $x$の影響を指数関数的に示す部分
-
比例ハザード仮定:
異なる共変量レベル間でのハザード比が時間に依存せず一定
具体的に言えば、2つの異なる個体間のハザード比(リスクの比)は、観察期間中に一貫して比例する
-
半パラメトリックモデル:
ベースラインハザード関数 $h_0(t)$ の特定の形状を指定しない
-
-
-
問 19.4
-
(1)
比例ハザードモデルは「比例ハザード性」が成り立つ場合に利用可能
2郡のハザード比が一定
今回の2郡は平行なので妥当
-
(2)
治療効果の大きさ
-
20章 分散分析と実験計画法
例題
-
問 20.1
- フィッシャーの三原則
- 反復
- ランダム化
- 局所管理
- (1)ランダム化できてないので✗
- (2)局所管理は均一な区画内でそれぞれ比較するので✗
- (3)反復になってないので✗
- フィッシャーの三原則
-
問 20.2
-
1元配置分散分析
因子 平方和 自由度 平均平方 F値 因子 全平均平方和 - $\sum_i^{n_1}$因子水準別平方和 因子の水準数-1 平方和 / 自由度 因子平均平方/ 残差平均平方 残差 「全体」-「因子」の平方和 「全体」-「因子」 平方和 / 自由度 全体 全平均と各データの平方和 全データ数-1 -
(1)
データのモデル:$y_{ij} = \mu + \alpha_i + \varepsilon_{ij}$
$H_0$:全ての機械の性能は同じ
$H_1$:全ての機械の性能は同じではない
-
(2)
平方和 自由度 平均平方 F値 因子 $40.47 -19 = 21.47$ $4-1=3$ $7.156..$ $4.89..$ 残差 $5.2+6.8+5+2=19$ $(17-1)-(4-1)=13$ $1.462$ 全体 $40.47$ $17-1=16$ 自由度$(3,13)$のF分布なので棄却限界域は約3.4程度となり、棄却できる
-
(3)
信頼区間は
$\bar{y_i} \pm t_{0.025}^{(残差自由度)}\sqrt{\text{残差平均平方}/n}$より
\displaylines{ 17.5 \pm 2.16 \sqrt{1.462/4} \\ 16.19 〜 18.81 }
-
-
問 20.3
- (1) Bは1元配置に含まれないので、平方和が異なり、誤差分散は$平方和/自由度$なので✗
- (2) 平方和は変わらないので✗
- (3) ◯
-
問 20.4
-
(1)
因子 平方和 自由度 平均平方 F値 自由度 棄却限界域 因子A $57-\sum_i^{n_1}$水準内平方和(54)=3 $2-1=1$ 3 4.47 1, 6 約6.4 因子B $57-\sum_i^{n_1}$水準内平方和(39)=18 $3-1=2$ 9 13.43 2, 6 約5.4 相互作用 57-3-18-$\sum_i^{n(A)}\sum_j^{n(B)}$相互水準内平方和(4) = 32 $(2-1)(3-1)=2$ 16 23.88 2, 6 約5.4 誤差項 $57-18-32 = 4$ 6 0.67 全体 57 $12-1=11$ 因子Aは棄却できない、その他は棄却できる
-
(2)
$A_1, A_2$は差があるかはわからないが、$A_1$、$B_3$を選択するとyが大きくなる
-
-
問 20.5
-
(1)
モデル:
y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha \beta)_{ij} + \varepsilon_{ijk}
因子 平方和 自由度 平均平方 F値 自由度 棄却限界域 因子A 320 $2-1=1$ 320 1.77 1, 16 約4.4 因子B 125 $2-1=1$ 125 0.69 1, 16 約4.4 相互作用 320 $(2-1)(2-1)=1$ 320 1.77 1, 16 約4.4 誤差項 2,891.2 $20-1-1-1=16$ 180.7 全体 3,656.2 $20-1=19$ それぞれの効果において有意性は無い
-
(2)
乱塊法のモデル:
y_{ijk} = \mu + \alpha_i + \beta_j + v_k +(\alpha \beta)_{ij} + \varepsilon_{ijk}
因子 平方和 自由度 平均平方 F値 自由度 棄却限界域 因子A 320 $2-1=1$ 320 133.3 1, 12 約4.6 因子B 125 $2-1=1$ 125 51.8 1, 12 約4.6 相互作用 320 $(2-1)(2-1)=1$ 320 133.3 1, 12 約4.6 ブロック因子V 2,862.2 $5-1=4$ 715.55 296.9 4, 12 約3.3 誤差項 29 $20-1-1-1-4=12$ 2.41 全体 3,656.2 $20-1=19$ 全てにおいて有意性がある
-
(3)
ブロック因子の変動が
大きい:誤差から分離したほうがA,Bなどの効果が検出しやすい
小さい:誤差の自由度が少なくなり、A,Bの効果が検出しにくくなる
-
-
問 20.6
-
(1)
No A B C D(ABC) A*B 1 1 1 1 1 1 2 1 1 2 2 1 3 1 2 1 2 2 4 1 2 2 1 2 5 2 1 1 2 2 6 2 1 2 1 2 7 2 2 1 1 1 8 2 2 2 2 1 Dとどの列を選んでも1,2が同数出ている(直行)
-
(2)
-
各交絡は以下
No A*B A*C A*D B*C B*D C*D 1 1 1 1 1 1 1 2 1 2 2 2 2 1 3 2 1 2 2 1 2 4 2 2 1 1 2 2 5 2 2 1 1 2 2 6 2 1 2 2 1 2 7 1 2 2 2 2 1 8 1 1 1 1 1 1 交絡するとは主効果と交絡が一致すること→そのような列は存在しないので交絡の組み合わせは無い
-
-
(3)
No A B C D(A*B) 1 1 1 1 1 2 1 1 2 1 3 1 2 1 2 4 1 2 2 2 5 2 1 1 2 6 2 1 2 2 7 2 2 1 1 8 2 2 2 1 全ての組み合わせが2回ずつ出現しているので直行している
-
(4)
No A*B A*C A*D B*C B*D C*D 1 1 1 1 1 1 1 2 1 2 1 2 1 2 3 2 1 2 2 1 2 4 2 2 2 1 1 1 5 2 2 1 1 2 2 6 2 1 1 2 2 1 7 1 2 2 2 2 1 8 1 1 2 1 2 2 一致している列は
- AとBD、BとAD、DとA*B
- 交絡する組み合わせは無し
-
(5)
満遍無く交絡を避けたい場合は(1)
Cの効果に注目したい場合はAB、BC、C*Dが他の効果と交絡しない(3)が向いている
-
-
問 20.7
-
(1)
交絡はそれぞれ以下
No A*B A*C 1 1 1 2 1 2 3 2 1 4 2 2 5 2 2 6 2 1 7 1 2 8 1 1 よってABは[3]、ACは[5]
-
(2)
一致する列が無いので交絡しない
-
(3)
因子 平方和 自由度 平均平方 F値 A $171.125$ 1 $171.125$ 80.529 B $45.125$ 1 $45.125$ 1.604 C 66.125 1 66.125 2.35 D 6.125 1 6.125 0.217 A*B 3.125 1*1 3.125 0.111 A*C 136.125 1*1 136.125 4.84 誤差項 28.125 7-6=1 28.125 全体 $455.875$ 7 -
(4)
$F=2$から考慮すべきはA、C、A*Cとなる主効果では$A_1, B_1, C_1, D_2$だが、A*Cの相互作用は$A_1, C_2$が良い
A*Cを考慮したほうが良いので、$A_1, B_1, C_2, D_1$となる
-
おわりに
いかがでしたでしょうか。
つたない記述もあったかもしれないですが、ご容赦いただけるとありがたいです。
21〜32章もまとめ次第公開しますので今しばらくお待ち下さい!