#第2章 「確率分布」のための数学
##2.1 微積分の復習
###2.1.1 微分の定義
\approx:ほぼ等しい。≒は日本でのみ通用するとのこと。
c.f. Wikipedia:数学記号の表
###2.2.2 変数変換
重積分について、変数xとyを持つ関数f(x, y)の積分は
\iint{f(x, y)dxdy}
となる。
x=g(s, t) \\
y=h(s, t)
とすると
dx = \frac{\partial{g(s, t)}}{\partial{s}}ds + \frac{\partial{g(s, t)}}{\partial{t}}dt \\
dy = \frac{\partial{h(s, t)}}{\partial{s}}ds + \frac{\partial{h(s, t)}}{\partial{t}}dt \\
行列を用いて表すと
\begin{pmatrix}
dx \\
dy
\end{pmatrix}
=
\begin{pmatrix}
\frac{\partial{g(s, t)}}{\partial{s}} & \frac{\partial{g(s, t)}}{\partial{t}} \\
\frac{\partial{h(s, t)}}{\partial{s}} & \frac{\partial{h(s, t)}}{\partial{t}}
\end{pmatrix}
\begin{pmatrix}
dt \\
ds
\end{pmatrix}
いま
\begin{pmatrix}
x \\
y
\end{pmatrix}
=
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
\begin{pmatrix}
s \\
t
\end{pmatrix}
として、s=[0, 1], t=[0, 1]で囲まれる正方形の面積を考えると、一次変換s->x, t->yにより平行四辺形に変換される。その平行四辺形の面積は、
\begin{vmatrix}
a & b \\
c & d
\end{vmatrix}
= ad - bc
となる。これは変数変換による面積の比の倍率となる。よって、
dxdy=|J|dtds
|J|はJの絶対値。ここでJは、先ほどの変数変換の行列の行列式、
J
=
\begin{vmatrix}
\frac{\partial{g(s, t)}}{\partial{s}} & \frac{\partial{g(s, t)}}{\partial{t}} \\
\frac{\partial{h(s, t)}}{\partial{s}} & \frac{\partial{h(s, t)}}{\partial{t}}
\end{vmatrix}
=
\frac{\partial{g(s, t)}}{\partial{s}}\frac{\partial{h(s, t)}}{\partial{t}}
-
\frac{\partial{g(s, t)}}{\partial{t}}\frac{\partial{h(s, t)}}{\partial{s}}
このJをヤコビアンと呼ぶ。ヤコビアンを用いると
\iint{f(x, y)dxdy} = \iint{f(g(s, t), h(s, t))|J|dsdt} \\
となる。ここでは(x, y)の2変数を(s, t)に変換したがこれを、n個の変数に一般化すると、
x_i=g_i(y_1, ..., y_n)\ \ \mathrm{for}\ i = 1, ..., n
とすると
\begin{align}
J &= \begin{vmatrix}
\frac{\partial(x_1, ..., x_n)}{\partial{(y_1, ..., y_n)}}
\end{vmatrix} \\
&= \mathrm{det}
\begin{pmatrix}
\frac{\partial(x_1, ..., x_n)}{\partial{(y_1, ..., y_n)}}
\end{pmatrix} \\
&= \mathrm{det}\frac{\partial{x_i}}{\partial{y_i}}
\end{align}
となり、p13の式となる。
引用:『統計学のための数学入門30講』永田靖
###2.2.3 行列式
本題と関係ないですが、記号の意味。
\Pi_{i<j}{(x_i - x_j)}
Σは足し算ですが、これは掛け算。i<jという条件で、
(x_1 - x_2)(x_1 - x_3)(x_2 - x_3)...(x_i - x_j)\ \ \ i < j
Σは高校2年の基礎解析(古くてごめんなさい、今なら数ⅡBか)に出てきたけどΠは知らないうちに出てきた気がする。
###2.2.4 行列の種類
転置行列の記号は本によってまちまちなので、念のため。以下はすべて同じ転置行列の記号です。
\mathbf{A}^\mathrm{T}, \mathbf{A}^{\top}, {}^t\!\mathbf{A}
本題と関係ないですが、記号の意味。
(ここのTEX表記だと記号が綺麗に出ないですが、白抜き文字の大文字アルファベットです。)
\mathbb{N}:自然数全体の集合 \\
\mathbb{Z}:整数全体の集合 \\
\mathbb{Q}:有理数全体の集合 \\
\mathbb{R}:実数全体の集合 \\
\mathbb{C}:複素数全体の集合
複素共役とは、zを複素数、a, bを実数、iを虚数単位とした時、虚数部分の符号を入れ替えたもの。
c.f. Wikipedia:複素共役
z=a+bi \\
\tilde{z}=a-bi
が互いに複素共役。
###2.2.5 ブロック行列の逆行列
とくになし
###2.2.6 三角化
とくになし
###2.2.7 対称行列
対称行列とは
A^{\mathrm{T}}=A
diag()は対角成分以外がすべて0である対角行列のことで、
A = \left(
\begin{array}{cccc}
a_{1} & 0 & \ldots & 0 \\
0 & a_{2} & \ldots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \ldots & a_{n}
\end{array}
\right)=\mathrm{diag}(a_{1}, a_{2}, \ldots, a_{n})
標数とはWikipedia:標数...、ちょっと分かりません。
SO(n)って直行対照群のことかなぁ。
このあとに|J|=-1とかあるけどこれは絶対値ではなく行列式のことだから負値もあり得るってことかな。
###2.2.8 2次形式
だからなぜこういうことを議論しなかればならなかの道筋を少しでも示してくれたなら、空がもう少し青かったなら僕らは悩むこともなかったろうに。
多変量ガウス分布(=多変量正規分布)や行列の正定値性を議論したい←2次形式が必要←対称行列の概念が必要←三角化の概念が必要
←ブロック行列の概念を導入すると一般化するときに扱いやすい
c.f.
- 『パターン認識と機械学習の学習』p29 正定値対称行列
- 『パターン認識と機械学習 上』p319 付録C. 行列の性質
- 『統計学のための数学入門30講』p103 16.8 正定値行列・非負定値行列
\begin{align}
y=P^{-1}xとおくと Py=x\\
\mathbf{x}^{\mathbf{T}}A\mathbf{x}&=(P\mathbf{y})^{\mathbf{T}}AP\mathbf{y} \\
&=\mathbf{y}^{\mathbf{T}}P^{\mathbf{T}}AP\mathbf{y} \\
転置行列の性質より (AB)^{\mathbf{T}}=B^{\mathbf{T}}A^{\mathbf{T}} 学習の学習p16
\end{align}
##2.3 多変量ガウス分布
偶関数とは引数が正でも負でも値の正負が変わらない関数のこと。
f(\mathbf{z})=\exp{(-\frac{1}{2}\mathbf{z}^{\mathbf{T}}A^{-1}\mathbf{z})}
はzの正負を逆転させてもf(z)の正負は変わらない。
\int{f(\mathbf{z})}d\mathbf{z}=\prod_{i=1}^n{\sqrt{2\pi\lambda_i}}
において、下記を使っている。
\int{\int{g(x)h(y)}}dxdy=\int{g(x)}dx\int{h(y)}dy
c.f. 『統計学のための数学入門30講 (科学のことばとしての数学)』 p181
疑問
分散は
V(\mathbf{x})=\mathbb{E}(\mathbf{x}^2)-\{\mathbb{E}(\mathbf{x})\}^2
と思うのだが、何故
\mathbb{E}[\mathbf{x}\mathbf{x}^T]
を計算している?
2.4 行列の微分
2.4.5 行列式の対数の微分の公式(1)
tri(\lambda_i)^{-1}=tri(\lambda_i^{-1})
とあっさり書かれているが、 c.f. 上三角行列の逆行列もまた上三角行列 - 理工系数学のアラカルト -が参考となる。
2.4.6 行列式の対数の微分の公式(2)
余因子
\Delta_{ij}=(-1)^{i+j}|A_{ij}| \\
をa_{ij}の余因子と呼ぶ (本書では \tilde{A}_{ij})
c.f. 『統計学のための数学入門30講 (科学のことばとしての数学)』 p129
余因子行列
(i, j)成分を\Delta_{ji}とする行列\Deltaを余因子行列と呼ぶ(本書では \tilde{A})
c.f. 『統計学のための数学入門30講 (科学のことばとしての数学)』 p130