More than 1 year has passed since last update.

3.13(標準) ロジスティック分布 (方針でロジスティック回帰を解説)

Last updated at 2022-08-23Posted at 2021-08-06

方針

ロジスティック分布に関連するロジスティック回帰を解説する(6章まで理解していないとよくわからないかも)．入力ベクトルx：

{\bf x}=\begin{pmatrix}x_1\\ \vdots\\ x_m\end{pmatrix}

がクラスC_1とC_2のいずれに属するかを推測する2クラス分類問題を考える．入力xが与えられた時，これがクラスC_1に属する，という条件付き確率は，

\begin{align}
p(C_1|{\bf x})&= \frac{p({\bf x}\land \mathcal{C}_1)}{p({\bf x})}\\
&= \frac{p({\bf x}\land \mathcal{C}_1)}{p({\bf x}\land \mathcal{C}_1)+p({\bf x}\land \mathcal{C}_2)}\\
&= \frac{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)}{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)+p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)}\\
&= \frac{1}{1+\frac{p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)}{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)}}\\
&= \frac{1}{1+\exp\{\log p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)-\log p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_2)\}}\\
&= \frac{1}{1+\exp\{-\log\frac{p(\mathcal{C}_1)p({\bf x}|\mathcal{C}_1)}{p(\mathcal{C}_2)p({\bf x}|\mathcal{C}_2)}\}}\\
&= \frac{1}{1+\exp(-a)}\\
(\ \ \ a&= \frac{p({\bf x}|\mathcal{C}_1)p(\mathcal{C}_1)}{p(a|\mathcal{C}_2)p(\mathcal{C}_2)}\ \ \ )
\end{align}

このように，

\sigma(a)=\frac{1}{1+\exp(-a)}

で定義されるsigmaをロジスティックシグモイド関数という．ロジスティック回帰とは，入力ベクトルxに定数を追加し

{\bf x}=\begin{pmatrix}x_0\\ x_1\\ \vdots\\ x_m\end{pmatrix},\ \ \ (x_0=1)

とした時，その線形関数yを

y={}^\top\!{\bf w}{\bf x}=w_0x_0+w_1x_1+...+w_mx_m

と定義して，

\begin{align}
p(\mathcal{C}_1|{\bf x})&= \frac{1}{1+\exp(-y)}\\
&= \frac{1}{1+\exp(-(w_0x_0+w_1x_1+...+w_mx_m))}
\end{align}

今，入力データと目的データの集合：

\{{\bf x}_m,{\bf t}_m\}=\{({\bf x}_1,t_1),...,({\bf x},t_N)\}

ただし，t_1,...,t_Nは0か1であり，それぞれC_1とC_2を表す．これが与えられた時，データN個の尤度関数は，

\begin{align}
f({\bf t}_m|{\bf w})&= \Pi_{n=1}^N Ber(p(\mathcal{C}_1|{\bf x}_n))\\
&= \Pi_{n=1}^N\{p(\mathcal{C}_1|{\bf x}_n)\}^{t_n}\{1-p(\mathcal{C}_1|{\bf x}_n)\}^{1-t_n}
\end{align}

対数を取って，

\log f({\bf t}_n|{\bf w})=\sum_{n=1}^N\{t_n\log p(\mathcal{C}_1|{\bf x}_n)+(1-t_n)(1-p(\mathcal{C}_1|{\bf x}_n))\}

これを最大化することでパラメータの最尤推定量$\hat{{\bf w}}$が求まる．

ロジスティックシグモイド関数は実数空間の入力を[0,1]区間に押し込む性質を持つ，分布関数であり，この分布をロジスティック分布と呼ぶ．今回の問題ではロジスティックシグモイド関数 (分布関数) の微分が確率密度関数になっていることや，分布が左右対称になっていることなどを説明する．

1.答案

任意の実数xに対し，

f_X(x)=\frac{e^{-x}}{(1+e^{-x})^2}>0

が成り立つ．また，

\int_{-\infty}^\infty \frac{e^{-x}}{(1+e^{-x})^2}dx=\left[\frac{1}{1+e^{-x}}\right]_{-\infty}^\infty=1

より，f_Xは確率密度関数である．

2.答案

Xの分布関数は，

\begin{align}
F_X(x)&= \int_{-\infty}^x\frac{e^{-t}}{(1+e^{-t})^2}dt\\
&= \frac{1}{1+\exp(-x)}
\end{align}

また，

\begin{align}
\frac{e^{-x}}{(1+e^{-x})^2}-\frac{e^x}{(1+e^x)^2}&= \frac{e^{-x}(1+e^x)^2-e^x(1+e^{-x})^2}{(1+e^{-x})^2(1+e^x)^2}\\
&= \frac{e^{-x}(1+2e^x+e^{2x})-e^x(1+2e^{-x}+e^{-2x})}{(1+e^{-x})^2(1+e^x)^2}\\
&= \frac{(e^{-x}+2+e^x)-(e^x+2+e^{-x})}{(1+e^{-x})^2(1+e^x)^2}\\
&= 0
\end{align}

より，任意の実数xについて，f(x)=f(-x)が成り立つので，f(x)はy軸について対称．

3.方針

答案ではいつも通り

P[U\leq u]=P[\frac{e^{-X}}{1+e^{-X}}\leq u]

を頑張って変形する作戦を取るが，今回の変数変換は

\begin{align}
U&= \frac{e^{-X}}{1+e^{-X}}\\
&= 1-\frac{1}{1+e^{-X}}\\
&= 1-F_X(X)
\end{align}

となっている．本書p24にあるように．分布関数を新たに確率変数として定義する場合，変数変換先の分布は一様分布する．まず，UはXについての単調減少関数で，0<=U<=1である．また，

\begin{align}
U=1-F_X(X)&\Leftrightarrow F_X(X)=1-U\\
&\Leftrightarrow X=F_X^{-1}(1-U)
\end{align}

なので，

\begin{align}
\frac{dx}{du}&= \frac{d}{du}F_X^{-1}(1-u)\\
&= (\frac{du}{dx})^{-1}=\{\frac{d}{dx}(1-F_X(x)\}^{-1}\\
&= (-f_X(x))^{-1}\\
&= -\frac{1}{f_X(x)}\\
&= -\frac{1}{f_X(F_X^{-1}(1-u))}
\end{align}

以上より，

f_U(u)=f_X(F_X^{-1}(1-U))\{-(-\frac{1}{f_X(F_X^{-1}(1-U))})\}=1,\ \ 0\leq u\leq 1

なので，Uは[0,1]区間の一様分布に従う．

3.答案

Uの分布関数は，

\begin{align}
P[U\leq u]&= P[\frac{e^{-X}}{1+e^{-X}}\leq u]\\
&= P[1-\frac{1}{1+e^{-X}}\leq u]\\
&= P[-1\leq(u-1)(1+e^{-X})]\\
&= P[(1-u)e^{-X}\leq u]\\
&= P[e^{-X}\leq \frac{u}{1-u}]\\
&= P[-X\leq\log\frac{u}{1-u}]\\
&= P[X\geq-log\frac{u}{1-u}]\\
&= 1- P[X\leq-log\frac{u}{1-u}]\\
&= 1-\frac{1}{1+\exp(\log\frac{u}{1-u})}\\
&= 1-\frac{1}{1+\frac{u}{1-u}}\\
&= u
\end{align}

ゆえに，

f_U(u)=\frac{d}{du}F_U(u)=1\ \ \ (0\leq U\leq 1)

4.答案

分布関数は，

\begin{align}
F_Y(y)&= P[Y\leq y]\\
&= P[|X|\leq y]\\
&= P[-y\leq X\leq y]\\
&= \int_{-\infty}^yf_X(x)dx-\int_{-\infty}^{-y}f_X(x)dx\\
&= \left[\frac{1}{1+e^{-x}}\right]_{-\infty}^y-\left[\frac{1}{1+e^{-x}}\right]_{-\infty}^{-y}\\
&= \frac{1}{1+e^{-y}}-\frac{1}{1+e^y}\\
&= \frac{e^y-e^{-y}}{(1+e^{-y})(1+e^y)}\\
&= \frac{(1+e^{y})(1-e^{-y})}{(1+e^{-y})(1+e^y)}\\
&= \frac{1-e^{-y}}{1+e^{-y}}
\end{align}

である．ゆえ，確率密度関数は，

\begin{align}
f_Y(y)&= f_X(y)-f_X(-y)(-1)\\
&= 2f_X(y)\\
&= \frac{2e^{-y}}{(1+e^{-y})^2},\ \ 0<y
\end{align}

ハザード関数は．

\begin{align}
\lambda(y)&= \frac{f_Y(y)}{1-F_Y(y)}\\
&= \frac{2e^{-y}}{(1+e^{-y})^2}\frac{1+e^{-y}}{2e^{-y}}\\
&= \frac{1}{1+e^{-y}}
\end{align}

5.答案

分布関数は，

\begin{align}
F_Y(y)&= P[\sigma X+\mu\leq y]\\
&= \begin{cases}
P[X\leq\frac{y-\mu}{\sigma}]\ \ \mathrm{if}\ 0<\sigma\\
P[X\geq \frac{y-\mu}{\sigma}]\ \ \mathrm{if}\ \sigma<0
\end{cases}\\
&= \begin{cases}
\int_{-\infty}^{\frac{y-\mu}{\sigma}}f_X(x)dx\\
1-\int_{-\infty}^{\frac{y-\mu}{\sigma}}f_X(x)dx
\end{cases}
\end{align}

より，確率密度関数は，

\begin{align}
f_Y(y)&= \begin{cases}
f_X(\frac{y-\mu}{\sigma})\frac{1}{\sigma},\ \ \ \mathrm{if}\ 0<\sigma\\
-f_X(\frac{y-\mu}{\sigma})\frac{1}{\sigma},\ \ \ \mathrm{if}\ \sigma<0
\end{cases}\\
&= \begin{cases}
\frac{\exp(-\frac{y-\mu}{\sigma})}{\sigma(1+\exp(-\frac{y-\mu}{\sigma}))^2}\\
-\frac{\exp(-\frac{y-\mu}{\sigma})}{\sigma(1+\exp(-\frac{y-\mu}{\sigma}))^2}
\end{cases}
\end{align}

参考文献

『現代数理統計学の基礎』(久保川達也　著)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up