LoginSignup
0
0

変数変換

Last updated at Posted at 2024-06-11

『統計学実践ワークブック』第4章の勉強メモです。

変数変換による確率密度関数の変化

連続確率変数$X$の確率密度関数を$f(x)$とする。ここで、新たな確率変数$Y=g(X)$について、$Y$の確率密度関数$f_Y(y)$は

\begin{multline}
\begin{split}
f_Y(y)&=\lim_{\epsilon\to 0}\frac{P(y<Y\leq y+\epsilon)}{\epsilon}\\
&=\lim_{\epsilon\to 0}\frac{P(y<g(X)\leq y+\epsilon)}{\epsilon}\\
&=\lim_{\epsilon\to 0}\frac{P(g^{-1}(y)<X\leq g^{-1}(y+\epsilon))}{\epsilon}\\
&=\lim_{\epsilon\to 0}\frac{P(g^{-1}(y)<X\leq g^{-1}(y+\epsilon))}{g^{-1}(y+\epsilon)-g^{-1}(y)}\cdot\frac{g^{-1}(y+\epsilon)-g^{-1}(y)}{\epsilon}\\
&=f(g^{-1}(y))\frac{dg^{-1}(y)}{dy}\\
&=f(g^{-1}(y))\frac{1}{\frac{dg(x)}{dx}}=f(g^{-1}(y))\frac{1}{g'(x)}\\
&=\frac{f(g^{-1}(y))}{g'(g^{-1}(y))}
\end{split}
\end{multline}

2変数$(X,Y)$の確率密度関数を$f(x,y)$とし、変数変換$(Z,W)=(u(X,Y),v(X,Y))$について考える。逆変換$(X,Y)=(s(Z,W),t(Z,W))$が存在するとして、この変換のヤコビアンは

J(X,Y)=\frac{\partial (u(X,Y),v(X,Y))}{\partial (X,Y)}=\left| 
\begin{matrix}
\frac{\partial u(X,Y)}{\partial X} & \frac{\partial u(X,Y)}{\partial Y} \\
\frac{\partial v(X,Y)}{\partial X} & \frac{\partial v(X,Y)}{\partial Y}
\end{matrix}
\right|

このとき、$(Z,W)$の確率密度関数は$\frac{f(s(z,w),t(z,w))}{|J(s(z,w),t(z,w))|}$となる。

確率変数の線形結合の分布

2つの独立な確率変数$X$、$Y$の線形結合$aX+bY$の分布を考える方法は

  • モーメント母関数を使う
  • 変数変換を使う

モーメント母関数を使う

$aX+bY$のモーメント母関数$E[e^{\theta(aX+bY)}]=E[e^{a\theta X}]E[e^{b\theta Y}]$を計算し、既知のモーメント母関数となるかどうかを調べる。しかし、この方法では求めたモーメント母関数が未知の場合にはその分布を知ることができない。

変数変換を使う

$Z=aX+bY$、$W=Y$という変換を考え、$(Z,W)$の分布を考える。このとき、逆変換は$(X,Y)=(\frac{Z-bW}{a}, W)$であり、ヤコビアンは

J(X,Y)=\left|
\begin{matrix}
\frac{\partial Z}{\partial X} & \frac{\partial Z}{\partial Y}\\
\frac{\partial W}{\partial X} & \frac{\partial W}{\partial Y}
\end{matrix}
\right|
=\left|
\begin{matrix}
a&b\\
0&1
\end{matrix}
\right|
=a

$X$の確率密度関数を$f_X(x)$、$Y$の確率密度関数を$f_Y(y)$とすると、$(Z,W)$の確率密度関数は$f_X(\frac{z-bw}{a})\frac{f_Y(w)}{|a|}$となる。ここで$w$について積分することで$Z$の確率密度関数

f_Z(z)=\int_{-\infty}^{\infty}\frac{1}{|a|}f_X(\frac{z-bw}{a})f_Y(w)dw

データの変換

一般に様々な誤差が積み重なったデータは正規分布に従う。

対数変換

様々な積が積み重なることにより得られるデータは対数を取ることで正規分布に従う。このような場合はデータの対数を取るとよい。このような変換を対数変換という。

確率密度関数

確率変数$X$の確率密度関数を$f_X(x)$とする。対数変換の確率変数$Y=\log X$とすると、その確率密度関数$f_Y(y)$は

\begin{multline}
\begin{split}
f_Y(y)&=\frac{f(g^{-1}(y))}{g'(g^{-1}(y))}=\frac{f_X(e^y)}{\frac{1}{e^y}}\\
&=f_X(e^y)e^y
\end{split}
\end{multline}

べき乗変換

データが正規分布に従うようにする方法としてべき乗変換も使われる。べき乗変換は$x\to x^a$という変換であり、どのような$a$とするかも十条な問題となる。

確率密度関数

確率変数$X$の確率密度関数を$f_X(x)$とする。べき乗変換の確率変数$Y=X^a$とすると、その確率密度関数$f_Y(y)$は

\begin{multline}
\begin{split}
f_Y(y)&=\frac{f(g^{-1}(y))}{g'(g^{-1}(y))}=\frac{f_X(y^{\frac{1}{a}})}{ay^{\frac{a-1}{a}}}
\end{split}
\end{multline}

Box-Cox変換

べき乗変換と対数変換をひとまとめにした変換としてBox-Cox変換がある。これはパラメータ$\lambda$に対し、

\begin{cases}
\frac{x^\lambda -1}{\lambda} & (\lambda \ne 0)\\
\log x & (\lambda =0)
\end{cases}

とする変換である。注意点として、非負のデータしか変換できない。

確率密度関数

確率変数$X$の確率密度関数を$f_X(x)$とする。Box-Cox変換の確率変数$Y$とすると、その確率密度関数$f_Y(y)$は

\begin{multline}
\begin{split}
f_Y(y)&=\frac{f(g^{-1}(y))}{g'(g^{-1}(y))}\\
&=
\begin{cases}
\frac{f_X((\lambda y+1)^{\frac{1}{\lambda}})}{(\lambda y+1)^{\frac{\lambda -1}{\lambda}}} & (\lambda\ne0)\\
f_X(e^y)e^y & (\lambda = 0)
\end{cases}
\end{split}
\end{multline}

ロジット変換

確率$p$のような0から1の値しかとらないものを$-\infty$から$\infty$を取る値に変換したいときは、$p\to \log\frac{p}{1-p}$とする。これをロジット変換という。

確率密度関数

\begin{multline}
\begin{split}
f_Y(y)&=\frac{f(g^{-1}(y))}{g'(g^{-1}(y))}=\frac{f(\log(\frac{y}{1-y}))}{\frac{(\frac{y}{1-y})^2}{(1+\frac{y}{1-y})^2}}\\
&=\frac{f(\log(\frac{y}{1-y}))}{y^2}
\end{split}
\end{multline}

ロジスティック変換

ロジット変換したものを$x$の回帰式$a+bx$で表す方法がロジスティック回帰である。$p$を$\frac{1}{1+e^{-(a+bx)}}$で表すことをロジスティック変換という。

\begin{multline}
\begin{split}
\log\frac{p}{1-p}&=a+bx\\
\frac{p}{1-p}&=e^{a+bx}\\
p&=\frac{e^{a+bx}}{1+e^{a+bx}}=\frac{1}{1+e^{-(a+bx)}}
\end{split}
\end{multline}

プロビット変換

標準正規分布の累積分布関数$\Phi(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt$の逆変換$\Phi^{-1}(x)$によって変換する方法をプロビット変換という。

例題

問4.1

[1]

正規分布のモーメント母関数を求める。

\begin{multline}
\begin{split}
E[\exp(\theta X)]&=\int \exp(\theta x)\frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})dx\\
&=\int \frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{x^2-2(\sigma^2\theta +\mu)x+\mu^2}{2\sigma^2})dx\\
&=\int \frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x-(\sigma^2\theta+\mu))^2}{2\sigma^2})\exp(\frac{\sigma^4\theta^2+2\sigma^2\mu\theta}{2\sigma^2})dx\\
&=\exp(\frac{\sigma^2\theta^2}{2}+\mu\theta)
\end{split}
\end{multline}

これに$\theta=1$を代入して、$E[\exp(X)]=\exp(\frac{\sigma^2}{2}+\mu)$

[2]

分散は$V[Y]=E[Y^2]+E[Y]^2$で求められる。ここで、$E[Y^2]=E[\exp(2X)]=\exp(2\sigma^2+2\mu)$となるので、

V[Y]=\exp(2\sigma^2+2\mu)-\{\exp(\frac{\sigma^2}{2}+\mu)\}^2=\exp(\sigma^2+2\mu)\{\exp(\sigma^2)-1\}

となる。

[3]

\begin{multline}
\begin{split}
f(y)&=\frac{f(g^{-1}(y))}{|g'(g^{-1}(y))|}\\
&=\frac{f(\log y)}{\exp(\log y)}\\
&=\frac{1}{\sqrt{2\pi}\sigma y}\exp\left(-\frac{(y-\mu)^2}{2\sigma^2}\right)
\end{split}
\end{multline}

問4.2

$Z=X+Y$、$W=Y$として、条件付確率密度関数を考える。

\begin{multline}
\begin{split}
f(x+y,y)&=f(z,w)=f_{Z|W}(z|w)f_W(w)\\
&=f(z-w)f(w)\\
&=\lambda e^{-\lambda (z-w)}\lambda e^{-\lambda w}=\lambda^2 e^{-\lambda z}\\
f(x+y)&=\int_0^z f(z,w)dw=\int_0^z \lambda^2 e^{-\lambda z}dw=\lambda^2 ze^{-\lambda z}\\
&=\lambda^2 (x+y)e^{-\lambda(x+y)}
\end{split}
\end{multline}

参考

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0