連続分布補足
こちらの分布一覧に記載した内容のうち、
連続型分布についての補足事項をまとめます。
全体的に分布一覧の「何を表す確率か」から自然に理解できる記述にしていますので、
分布一覧と見比べながら読んでいただければと思います。
離散型分布についてはこちら参照です。
また、以下の表記を用います;
- pdf: 確率密度関数
- ${\rm i.i.d}$: 互いに独立に同一分布に従う
- $E[X]$: $X$の期待値
- $V[X]$: $X$の分散
初めに:確率密度関数は確率ではない
統計学初心者が誰しも陥る勘違いですが、
連続型の$f(x)$は確率密度関数であり、確率ではありません。
\begin{aligned}
離散型では、& f(x)=P(X=x)\\
連続型では、& f(x)\Delta x=P(x<X<x+\Delta x)
\end{aligned}
ですね。
この辺りをよく理解せずに$f(x)=10$となる場面に出会い
「なんで確率が1超える?」と思った経験がある人は多いはず。
「$f(x)$に$\Delta x$を掛けて初めて確率になる」を頭に叩き込んでおきましょう。
また、やや別件ですが連続変数型の$X,Y$について以下は成立しません。
P(X=x|Y=y)=\frac{P(X=y, Y=y)}{P(Y=y)}
分母の$P(Y=y)=0$だからです。
記述答案にうっかりこれを書いて減点を食らわないよう、注意したい所です。
指数分布
指数分布は試験にとてもよく出ます。
だからこそ重要事項は暗記する事をお勧めします(計算ミスのリスク低減のため)。
以下では、$T{\sim}Exp(\lambda)$, pdf $f(t)=\lambda e^{-\lambda t}$とします。
また、$T$を観測開始から始めて故障が発生するまでの経過時間として説明します。
平均・累積分布関数は必ず問われる
平均$=1/\lambda$です。
例えば、2秒に1回発生する事象($\lambda=2$)の発生間隔は$1/2$秒、なので自明ですね。
累積分布関数$F(t)=1-e^{-\lambda t}$ です。
これは、積分計算の際の計算ミスで $e^{-\lambda t}-1$ としがちですが、
$t \rightarrow \infty $ の時 $F(t) \rightarrow 1$より $F(t)=1-e^{-\lambda t}$が正解と分かります。
若干ズルですが、上記の検算方法と暗記を駆使すれば、
累積分布関数を求めよという試験問題に対して、
$F(t) = \int_0^t \lambda e^{-\lambda x} dx=1-e^{-\lambda t}$
と、積分を計算せずに答を書いてしまっても良さそうです。
ハザード関数も良く問われる
ハザード関数$h(t)$とは、
「時刻$t$まで稼働していた部品が時刻$t$に故障する瞬間故障率(確率密度)」です。
このような日本語での説明や下記のような数式での定義を書かせる問題が
実際に試験で出題されています(2019理工1, 2021医薬1)。
下記を暗記しておくと試験では有利でしょう。
-
数式上の定義は、下記で$\Delta t\rightarrow +0$した物。上記の日本語まんま。
$$h(t)\Delta t=P(t < T < t+\Delta t|T>t)$$ -
上記の定義式より導かれる下記が試験では役立つ事が多い。
(上記の、「確率密度関数は確率ではない」を抑えれば暗算で導出可能)
$$h(t)=\frac{f(t)}{1-F(t)}=-\frac{d}{dt}\log\{1-F(t)\}$$ -
$Exp(\lambda)$の場合は$h(t)=\lambda$で一定。
分布一覧の「何を表す確率か」より明らか。
指数分布の定義と言ってしまっても良いレベル。
ポアソン分布の確率関数からpdfが導ける
どの参考書にも書いてありますが、
・ポアソン分布は故障の発生回数の分布
・指数分布は 〃 発生間隔の分布
です。
これをもう少し数学風に言うと以下の通りです。
$X$を単位時間当たりの故障発生回数、$T$を初めて故障が発生するまでの時間とする時、
X{\sim}Po(\lambda) \hspace{5pt} ならば \hspace{5pt} T{\sim}Exp(\lambda)
これを証明させる or ネタにした問題が時々試験に出ます(2017理工2・2018理工1)。
証明の流れを覚えておくとよいかと思います。
証明の流れ
観測開始後の経過時間が$t$の時、
「故障回数が$0$回 $\Leftrightarrow$ $1$回目故障までの経過時間は$t$より大」が成立する。
よってそれまでの故障発生回数を$X^\prime$とすると、
P(X^\prime=0) = P(T>t)
$X{\sim}Po(\lambda)$ の時、$X^\prime{\sim}Po(t\lambda)$ なので左辺$=e^{-\lambda t}$、一方右辺$=1-F(t)$、
$\therefore f(t)=-\lambda e^{-\lambda t}$となって$T{\sim}Exp(\lambda)$が示されます。
思い出し方
証明の第一歩が
「故障回数が$0$回 $\Leftrightarrow$ $1$回目故障までの経過時間は$t$より大」
である事さえ思い出せれば問題無く証明できるのですが、
「故障回数が$1$回?$1$回以下?どっちを考えるんだっけ?」となりがちです。
「時刻$t$で$0$回の場合を考える」を覚えておきましょう。
ガンマ分布
以下では、
$T_i\sim Exp(\lambda)$ i.i.d,
$T = \Sigma_{i=1}^k T_i \sim Ga(k,\lambda)$
とします。
平均と分散は指数分布から瞬殺で求める
分布一覧に記載の通りですが、指数分布の平均・分散さえ覚えていれば
E[T] = \sum_{i=1}^k E[T_i] = \frac{k}{\lambda} \\
V[T] = \sum_{i=1}^k V[T_i] = \frac{k}{\lambda^2}
と瞬殺できます(積分すると損)。
少し早く積分する方法
例えば累積分布関数を求める場合、自分は
\begin{aligned}
F(x)
&= C \times \int_0^x t^{k-1} e^{-\lambda t} dt \\
&= C \times \int_0^{\lambda x} (\lambda t)^{k-1} e^{-\lambda t} d(\lambda t) \times \frac{1}{\lambda^k}
\end{aligned}
と変形するようにしています。
積分の中の変数を全て$\lambda t$でそろえるイメージですね。
原理的には置換積分しているだけなのですが、
慣れるとこの積分が$1/\lambda^k$を吐き出す事が暗算でも分かるようになり、
ややオススメです。
おまけ①:パラメーターはどっちがどっち?
問)ガンマ分布$Ga(\alpha, \beta)$のpdf, 正しいのはどちらでしょう?
1) \hspace{5pt} f(t) = C \times t^{\alpha-1} e^{-\beta t} \\
2) \hspace{5pt} f(t) = C \times t^{\beta-1} e^{-\alpha t}
答は、$1)$です。
$Ga(\alpha, \beta)$は
1番目のパラメーター$\alpha$が事象の繰り返し回数を、
2番目のパラメーター$\beta $が事象の発生頻度を表します。
$Bin(n,p)$と同じ、と覚えておきましょう。
おまけ②:なんでk回なのにk-1乗なの?
問)
ガンマ分布はポアソン事象が$k$回発生する時間の分布、
なのになんでpdfの$t$の指数は$k$じゃなくて$k-1$乗なの?
答)
連続型変数については「$f(t)$に$\Delta t$を掛けて初めて確率になる」から。
残りの$1$乗は$\Delta t$の方にある!
自分はそう覚えています。
標本分布補足
こちらの分布一覧に記載した内容のうち、
標本の分布についての補足事項をまとめます。
カイ二乗分布
正規分布に慕う変数があれば高頻度で登場する
1変数正規分布について下記は誰でも知ってるレベル関係ですが、
X\sim N(\mu, \sigma^2) \Rightarrow Z:=\frac{(X-\mu)}{\sigma}\sim N(0, 1)
$n$変数正規分布の場合もこれと同じく、下記が成り立ちます(数学的に厳密でないけど)。
\begin{aligned}
\boldsymbol{X} \sim N(\boldsymbol{\mu}, \Sigma)
\Rightarrow
&
\boldsymbol{Z}:=
\frac{\boldsymbol{X}-\boldsymbol{\mu}}{\sqrt{\Sigma}} \sim N(\boldsymbol{0},I_n) \\
&
\therefore ||\boldsymbol{Z}||^2 \sim \chi^2(n)
\end{aligned}
最小二乗法や分散分析などでは突然$\chi^2$分布が登場しますが、
どちらの場合も誤差項$\boldsymbol{\epsilon}$が、$\boldsymbol{\epsilon} \sim N(\boldsymbol{0}, I_n)$と仮定するので、
その線形結合で作られた変数$\boldsymbol{Y}$は、$\boldsymbol{Y}\sim N(\boldsymbol{\mu}, \Sigma)$となり、
それらの二乗和は$\chi^2$分布に従う、
というのが背景となっております。
補足:数学的に厳密でない点
上記で$\Sigma$は分散共分散行列なので、
$\sqrt{\Sigma}$が分母に来る、という表現は数学的には正しくないです。
正しくは、
\begin{aligned}
\boldsymbol{X} \sim N(\boldsymbol{\mu}, \Sigma)
\Rightarrow
&
\boldsymbol{Z}:=
\Sigma^{-1/2}(\boldsymbol{X}-\boldsymbol{\mu}) \sim N(\boldsymbol{0},I_n) \\
&
\Sigma^{-1/2}:=U^T\Lambda^{-1/2} U \\
&
\Lambda^{-1/2}:= \mathrm{diag}(\lambda_1^{-1/2}, \cdots ,\lambda_n^{-1/2}) \\
&
\lambda_iは\SigmaをUで対角化した時の固有値
\end{aligned}
で、尚且つ$\lambda_i \neq 0$ $(\forall i)$の時しか$\boldsymbol{Z}$は定義できないんですが、
まぁそこは目をつぶって、雰囲気だけご理解ください。
補足
関連ページ
統計検定1級 公式の覚え方
統計検定1級対策 各分布の特徴の覚え方1 分布一覧編
統計検定1級対策 各分布の特徴の覚え方2 離散分布編