方針
ロジスティック分布に関連するロジスティック回帰を解説する(6章まで理解していないとよくわからないかも).入力ベクトルx:
{\bf x}=\begin{pmatrix}x_1\\ \vdots\\ x_m\end{pmatrix}
がクラスC_1とC_2のいずれに属するかを推測する2クラス分類問題を考える.入力xが与えられた時,これがクラスC_1に属する,という条件付き確率は,
\begin{align}
p(C_1|{\bf x})&= \frac{p({\bf x}\land \mathcal{C}_1)}{p({\bf x})}\\
&= \frac{p({\bf x}\land \mathcal{C}_1)}{p({\bf x}\land \mathcal{C}_1)+p({\bf x}\land \mathcal{C}_2)}\\
&= \frac{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)}{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)+p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)}\\
&= \frac{1}{1+\frac{p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)}{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)}}\\
&= \frac{1}{1+\exp\{\log p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)-\log p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_2)\}}\\
&= \frac{1}{1+\exp\{-\log\frac{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)}{p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)}\}}\\
&= \frac{1}{1+\exp(-a)}\\
(\ \ \ a&= \frac{p({\bf x}|\mathcal{C}_1)p(\mathcal{C}_1)}{p(a|\mathcal{C}_2)p(\mathcal{C}_2)}\ \ \ )
\end{align}
このように,
\sigma(a)=\frac{1}{1+\exp(-a)}
で定義されるsigmaをロジスティックシグモイド関数という.ロジスティック回帰とは,入力ベクトルxに定数を追加し
{\bf x}=\begin{pmatrix}x_0\\ x_1\\ \vdots\\ x_m\end{pmatrix},\ \ \ (x_0=1)
とした時,その線形関数yを
y={}^\top\!{\bf w}{\bf x}=w_0x_0+w_1x_1+...+w_mx_m
と定義して,
\begin{align}
p(\mathcal{C}_1|{\bf x})&= \frac{1}{1+\exp(-y)}\\
&= \frac{1}{1+\exp(-(w_0x_0+w_1x_1+...+w_mx_m))}
\end{align}
今,入力データと目的データの集合:
\{{\bf x}_m,{\bf t}_m\}=\{({\bf x}_1,t_1),...,({\bf x},t_N)\}
ただし,t_1,...,t_Nは0か1であり,それぞれC_1とC_2を表す.これが与えられた時,データN個の尤度関数は,
\begin{align}
f({\bf t}_m|{\bf w})&= \Pi_{n=1}^N Ber(p(\mathcal{C}_1|{\bf x}_n))\\
&= \Pi_{n=1}^N\{p(\mathcal{C}_1|{\bf x}_n)\}^{t_n}\{1-p(\mathcal{C}_1|{\bf x}_n)\}^{1-t_n}
\end{align}
対数を取って,
\log f({\bf t}_n|{\bf w})=\sum_{n=1}^N\{t_n\log p(\mathcal{C}_1|{\bf x}_n)+(1-t_n)(1-p(\mathcal{C}_1|{\bf x}_n))\}
これを最大化することでパラメータの最尤推定量$\hat{{\bf w}}$が求まる.
ロジスティックシグモイド関数は実数空間の入力を[0,1]区間に押し込む性質を持つ,分布関数であり,この分布をロジスティック分布と呼ぶ.今回の問題ではロジスティックシグモイド関数 (分布関数) の微分が確率密度関数になっていることや,分布が左右対称になっていることなどを説明する.
1.答案
任意の実数xに対し,
f_X(x)=\frac{e^{-x}}{(1+e^{-x})^2}>0
が成り立つ.また,
\int_{-\infty}^\infty \frac{e^{-x}}{(1+e^{-x})^2}dx=\left[\frac{1}{1+e^{-x}}\right]_{-\infty}^\infty=1
より,f_Xは確率密度関数である.
2.答案
Xの分布関数は,
\begin{align}
F_X(x)&= \int_{-\infty}^x\frac{e^{-t}}{(1+e^{-t})^2}dt\\
&= \frac{1}{1+\exp(-x)}
\end{align}
また,
\begin{align}
\frac{e^{-x}}{(1+e^{-x})^2}-\frac{e^x}{(1+e^x)^2}&= \frac{e^{-x}(1+e^x)^2-e^x(1+e^{-x})^2}{(1+e^{-x})^2(1+e^x)^2}\\
&= \frac{e^{-x}(1+2e^x+e^{2x})-e^x(1+2e^{-x}+e^{-2x})}{(1+e^{-x})^2(1+e^x)^2}\\
&= \frac{(e^{-x}+2+e^x)-(e^x+2+e^{-x})}{(1+e^{-x})^2(1+e^x)^2}\\
&= 0
\end{align}
より,任意の実数xについて,f(x)=f(-x)が成り立つので,f(x)はy軸について対称.
3.方針
答案ではいつも通り
P[U\leq u]=P[\frac{e^{-X}}{1+e^{-X}}\leq u]
を頑張って変形する作戦を取るが,今回の変数変換は
\begin{align}
U&= \frac{e^{-X}}{1+e^{-X}}\\
&= 1-\frac{1}{1+e^{-X}}\\
&= 1-F_X(X)
\end{align}
となっている.本書p24にあるように.分布関数を新たに確率変数として定義する場合,変数変換先の分布は一様分布する.まず,UはXについての単調減少関数で,0<=U<=1である.また,
\begin{align}
U=1-F_X(X)&\Leftrightarrow F_X(X)=1-U\\
&\Leftrightarrow X=F_X^{-1}(1-U)
\end{align}
なので,
\begin{align}
\frac{dx}{du}&= \frac{d}{du}F_X^{-1}(1-u)\\
&= (\frac{du}{dx})^{-1}=\{\frac{d}{dx}(1-F_X(x)\}^{-1}\\
&= (-f_X(x))^{-1}\\
&= -\frac{1}{f_X(x)}\\
&= -\frac{1}{f_X(F_X^{-1}(1-u))}
\end{align}
以上より,
f_U(u)=f_X(F_X^{-1}(1-U))\{-(-\frac{1}{f_X(F_X^{-1}(1-U))})\}=1,\ \ 0\leq u\leq 1
なので,Uは[0,1]区間の一様分布に従う.
3.答案
Uの分布関数は,
\begin{align}
P[U\leq u]&= P[\frac{e^{-X}}{1+e^{-X}}\leq u]\\
&= P[1-\frac{1}{1+e^{-X}}\leq u]\\
&= P[-1\leq(u-1)(1+e^{-X})]\\
&= P[(1-u)e^{-X}\leq u]\\
&= P[e^{-X}\leq \frac{u}{1-u}]\\
&= P[-X\leq\log\frac{u}{1-u}]\\
&= P[X\geq-log\frac{u}{1-u}]\\
&= 1- P[X\leq-log\frac{u}{1-u}]\\
&= 1-\frac{1}{1+\exp(\log\frac{u}{1-u})}\\
&= 1-\frac{1}{1+\frac{u}{1-u}}\\
&= u
\end{align}
ゆえに,
f_U(u)=\frac{d}{du}F_U(u)=1\ \ \ (0\leq U\leq 1)
4.答案
分布関数は,
\begin{align}
F_Y(y)&= P[Y\leq y]\\
&= P[|X|\leq y]\\
&= P[-y\leq X\leq y]\\
&= \int_{-\infty}^yf_X(x)dx-\int_{-\infty}^{-y}f_X(x)dx\\
&= \left[\frac{1}{1+e^{-x}}\right]_{-\infty}^y-\left[\frac{1}{1+e^{-x}}\right]_{-\infty}^{-y}\\
&= \frac{1}{1+e^{-y}}-\frac{1}{1+e^y}\\
&= \frac{e^y-e^{-y}}{(1+e^{-y})(1+e^y)}\\
&= \frac{(1+e^{y})(1-e^{-y})}{(1+e^{-y})(1+e^y)}\\
&= \frac{1-e^{-y}}{1+e^{-y}}
\end{align}
である.ゆえ,確率密度関数は,
\begin{align}
f_Y(y)&= f_X(y)-f_X(-y)(-1)\\
&= 2f_X(y)\\
&= \frac{2e^{-y}}{(1+e^{-y})^2},\ \ 0<y
\end{align}
ハザード関数は.
\begin{align}
\lambda(y)&= \frac{f_Y(y)}{1-F_Y(y)}\\
&= \frac{2e^{-y}}{(1+e^{-y})^2}\frac{1+e^{-y}}{2e^{-y}}\\
&= \frac{1}{1+e^{-y}}
\end{align}
5.答案
分布関数は,
\begin{align}
F_Y(y)&= P[\sigma X+\mu\leq y]\\
&= \begin{cases}
P[X\leq\frac{y-\mu}{\sigma}]\ \ \mathrm{if}\ 0<\sigma\\
P[X\geq \frac{y-\mu}{\sigma}]\ \ \mathrm{if}\ \sigma<0
\end{cases}\\
&= \begin{cases}
\int_{-\infty}^{\frac{y-\mu}{\sigma}}f_X(x)dx\\
1-\int_{-\infty}^{\frac{y-\mu}{\sigma}}f_X(x)dx
\end{cases}
\end{align}
より,確率密度関数は,
\begin{align}
f_Y(y)&= \begin{cases}
f_X(\frac{y-\mu}{\sigma})\frac{1}{\sigma},\ \ \ \mathrm{if}\ 0<\sigma\\
-f_X(\frac{y-\mu}{\sigma})\frac{1}{\sigma},\ \ \ \mathrm{if}\ \sigma<0
\end{cases}\\
&= \begin{cases}
\frac{\exp(-\frac{y-\mu}{\sigma})}{\sigma(1+\exp(-\frac{y-\mu}{\sigma}))^2}\\
-\frac{\exp(-\frac{y-\mu}{\sigma})}{\sigma(1+\exp(-\frac{y-\mu}{\sigma}))^2}
\end{cases}
\end{align}
参考文献
- 『現代数理統計学の基礎』(久保川達也 著)