1. 背景
「現代数理統計学 竹村(2020)」 p94, 163に登場する0-1損失を用いた場合のリスク関数の式
R(\theta, \delta) = P(誤った決定) =
\begin{cases}
P_\theta(\delta(X) = 1), & \text{if } \ \theta \in \Theta_0\\
P_\theta(\delta(X) = 0), & \text{if } \ \theta \in \Theta_1\\
\end{cases}
および
$$E[L] = 0 \times P(L=0) + 1 \times P(L=1) = P(L=1)$$の式変形で詰まったのでメモ。同じように詰まった方がいらっしゃったら参考にしていただけると嬉しいです。
2. 前提
以下を満たしている方を読者として想定しています。
- 「現代数理統計学 竹村(2020)」を読んでいる
- 統計的仮説検定の基礎知識がある
- 決定関数,損失関数,リスク関数の意味を理解している
3. 導出のための準備
式変形導出の準備として、以下の仮定をしておきます。
- $X$は$n$個の確率変数の組で$X = (X_1, X_2, \cdots ,X_n)$1
- $x$は$X$の観測値で$x=(x_1, x_2, \cdots, x_n)$2
- 標本空間 $\mathscr{X} = A \cup R$
- 受容域 $A = \lbrace \ x\ |\ \delta(x) =0 \ \rbrace$
- 棄却域 $R = \lbrace \ x\ |\ \delta(x) = 1 \ \rbrace$
- 母数空間 $\Theta = \Theta_0 \cup \Theta_1$ かつ $\emptyset = \Theta_0 \cap \Theta_1$
- 決定空間 $D = \lbrace \ 0, 1\ \rbrace$
- 決定関数 $\delta : \mathscr{X} \rightarrow D$
- 損失関数 $L(\theta, \delta(X))$
- リスク関数 $R(\theta, \delta) = E_\theta[\ L(\theta, \delta(X)) \ ]$
0-1損失の場合、損失関数は帰無仮説が正しく$\theta \in \Theta_0$であるときは受容すれば損失は0、棄却すれば損失は1となるので、以下のように書けます。($\tiny{X\in A}\small{\ についての補足}$3)
L(\theta, \delta(X)) =
\begin{cases}
0, & \text{if } \ X \in A\\
1, & \text{if } \ X \in R
\end{cases}
\label{loss_null_hypothesis}\tag{1}
逆に対立仮説が正しく$\theta \in \Theta_1$であるときは受容すれば損失は1、棄却すれば損失は0となるので、以下のように書けます。
L(\theta, \delta(X)) =
\begin{cases}
1, & \text{if } \ X \in A\\
0, & \text{if } \ X \in R
\end{cases}
\label{loss_alternative_hypothesis}\tag{2}
リスク関数$R(\theta, \delta)$は期待値の定義から以下のように書けます。(確率変数$X$が離散型の場合4 )
$$R(\theta, \delta) = E_\theta[\ L(\theta, \delta)\ ]
= \sum_{x\in\mathscr{X}}L(\theta, \delta(X=x))\cdot P_\theta(X=x)
\label{risk_def}\tag{3}
$$
4. 導出
確率変数$X$が離散型の場合について示します。(連続型も同様)
$\big\langle$$\theta \in \Theta_0$ のとき$\big\rangle$
$(\ref{risk_def})$より、
\begin{align}
E_\theta[\ L(\theta, \delta)\ ]
&= \sum_{x\in\mathscr{X}}L(\theta, \delta(X=x))\cdot P_\theta(X=x) \\
&= \sum_{x\in A}L(\theta, \delta(X=x))\cdot P_\theta(X=x) + \sum_{x\in R}L(\theta, \delta(X=x))\cdot P_\theta(X=x)
\end{align}
ここで、$\theta \in \Theta_0$であるから$(\ref{loss_null_hypothesis})$より、
受容するときの損失は $0$ なので$L(\theta, \delta(X=x)) = 0$で
\begin{align}
\sum_{x\in A}L(\theta, \delta(X=x))\cdot P_\theta(X=x)
&= \sum_{x\in A} \ 0 \ \cdot \ P_\theta(X=x) \\
&= 0 \cdot \sum_{x\in A} P_\theta(X=x) \\
&= 0 \cdot P(L=0)
\end{align}
また、棄却するときの損失は $1$ なので$L(\theta, \delta(X=x)) = 1$で
\begin{align}
\sum_{x\in R}L(\theta, \delta(X=x))\cdot P_\theta(X=x)
&= \sum_{x\in R} \ 1 \ \cdot \ P_\theta(X=x) \\
&= 1 \cdot \sum_{x\in R} P_\theta(X=x) \\
&= 1 \cdot P(L=1)
\end{align}
よって
$$E_\theta[\ L(\theta, \delta)\ ] = 0\cdot P(L=0) + 1\cdot P(L=1) = P(L=1)$$
$$$$
$\big\langle$$\theta \in \Theta_1$ のとき$\big\rangle$
\begin{align}
E_\theta[\ L(\theta, \delta)\ ]
&= \sum_{x\in A}L(\theta, \delta(X=x))\cdot P_\theta(X=x) + \sum_{x\in R}L(\theta, \delta(X=x))\cdot P_\theta(X=x)
\end{align}
ここで、$\theta \in \Theta_1$であるから$(\ref{loss_alternative_hypothesis})$より、
受容するときの損失は $1$ なので$L(\theta, \delta(X=x)) = 1$で
\begin{align}
\sum_{x\in A}L(\theta, \delta(X=x))\cdot P_\theta(X=x)
&= \sum_{x\in A} \ 1 \ \cdot \ P_\theta(X=x) \\
&= 1 \cdot \sum_{x\in A} P_\theta(X=x) \\
&= 1 \cdot P(L=1)
\end{align}
また、棄却するときの損失は $0$ なので$L(\theta, \delta(X=x)) = 0$で
\begin{align}
\sum_{x\in R}L(\theta, \delta(X=x))\cdot P_\theta(X=x)
&= \sum_{x\in R} \ 0 \ \cdot \ P_\theta(X=x) \\
&= 0 \cdot \sum_{x\in R} P_\theta(X=x) \\
&= 0 \cdot P(L=0)
\end{align}
よって
$$E_\theta[\ L(\theta, \delta)\ ] = 1\cdot P(L=1) + 0\cdot P(L=0) = P(L=1)$$
$$$$
$\big\langle$$\theta \in \Theta_0$ のとき$\big\rangle$ と $\big\langle$$\theta \in \Theta_1$ のとき$\big\rangle$ より、どちらの場合であっても結局
$$E[L] = 0 \cdot P(L=0) + 1 \cdot P(L=1) = P(L=1)$$ となる。
$L=1$となるのは誤った決定をした場合であるから、
- $\theta \in \Theta_0$ のときは、$P(L=1) = P_\theta(\delta(X) = 1)$
- $\theta \in \Theta_1$ のときは、$P(L=1) = P_\theta(\delta(X) = 0)$
であり、リスク関数は
R(\theta, \delta) = P(誤った決定) =
\begin{cases}
P_\theta(\delta(X) = 1), & \text{if } \ \theta \in \Theta_0\\
P_\theta(\delta(X) = 0), & \text{if } \ \theta \in \Theta_1\\
\end{cases}
で与えられる。
5. 補足
証明中でわざわざ書くほどでもないのですが、時間が経ったら忘れそうなのでこちらにメモとして残します。必要に応じて参考にして下さい。
$\theta \in \Theta_0$の元で、
- $\sum_{x\in A}P_\theta(X = x) = P(L=0)$
- $\sum_{x\in R}P_\theta(X = x) = P(L=1)$
が成立するのを理解する例として、たとえば以下が良さそう。
ここでは簡単のために$X$は1次元とする。
$X\in \lbrace 1,2,3,4,5,6 \rbrace$ で、$x$が$1,2,3$ のいずれかの時に受容、$4,5,6$のいずれかのときに棄却するように決定関数$\delta$を定めると、$A = \lbrace 1,2,3 \rbrace$, $R = \lbrace 4,5,6 \rbrace$ であるから、
L(\theta, \delta(x)) =
\begin{cases}
0, & \text{if } \ x \in A\\
1, & \text{if } \ x \in R
\end{cases}
と書ける。このとき
$$P(L=0) = \sum_{x\in A}P(X=x)= P(X=1)+P(X=2)+P(X=3) = 1/2$$ また、
$$P(L=1) = \sum_{x\in R}P(X=x)= P(X=4)+P(X=5)+P(X=6) = 1/2$$
6. おわりに
記述が間違っていたり、不足している部分がある場合コメントいただけますと幸いです。
特に$P(L=0)$が正しいのか$P_\theta(L=0)$が正しいのかご存知の方がいらっしゃいましたらご教示いただけますと幸いです。(本に従って$L$についての確率のときは$\theta$を外しました。$L$がパラメータ$\theta$の分布に直接従っている訳ではないので$\theta$がついていないのかなと思ったのですが、$X$を通じて$L$の値が決まるので関係ないとも言い切れないような)
参考
竹村彰通, 「現代数理統計学」, 学術図書出版社(2020)
-
$X$と$\boldsymbol{X}$で表示の違いがあまりないので全て$X$で書きます ↩
-
同様に$x$と$\boldsymbol{x}$で表示の違いがあまりないので全て$x$で書きます ↩
-
$A = \lbrace \ x\ |\ \delta(x) =0 \ \rbrace$であり、$\delta(X) = 0$とは受容することであるから、$X\in A$とは "データ$X = (X_1,X_2,\cdots,X_n)$を用いて計算を行なった結果、受容されるようなデータである" ことを指しています。
なお$X\in R$も同様に、"$X$は棄却されるような値のデータである" ことを表します。 ↩ -
連続の場合は$$R(\theta, \delta) = E_\theta[\ L(\theta, \delta)\ ] = \int_{x\in\mathscr{X}} L(\theta, \delta(x)) \cdot f_\theta(x) dx$$ ↩