#1. 線形代数
1.1. ベクトル・スカラー
任意の$n$ $\in$ $\mathbb{N}$ に対して、$n$個の数$x_{i}$ (ここで$i$=1,2,$\cdots$,$n$)を以下のように縦に並べた$\boldsymbol{x}$を$n$次元ベクトルという。これに対して1成分しかないような1次元の値をスカラーという。
\boldsymbol{x}=\left(
\begin{array}{c}
x_{1} \\
x_{2}\\
\vdots \\
x_{n}
\end{array}
\right)
1.2. 行列
任意の$m$,$n$ $\in$ $\mathbb{N}$ に対して、$mn$個の数$a_{i,j}$ (ここで$i$=1,2,$\cdots$,$m$, $j$=1,2,$\cdots$,$n$)を以下のように並べた$A$を$m×n$行列という。
A=\left(
\begin{array}{cccc}
a_{11} & a_{12} & \cdots & a_{1n}\\
a_{21} & a_{22} &\cdots & a_{2n}\\
\vdots & \vdots &\ddots & \vdots \\
a_{m1} & a_{m2} & \cdots & a_{mn}
\end{array}
\right)
1.3. 単位行列
以下のように対角成分がすべて1でほかの成分が0の正方行列$E$を単位行列という。
E=\left(
\begin{array}{cccc}
1 & 0 & \cdots & 0\\
0 & 1 &\cdots & 0\\
\vdots & \vdots &\ddots & \vdots \\
0 & 0 & \cdots & 1
\end{array}
\right)
1.4. 逆行列
ある正方行列$A$に対して、以下のように$A$との積が単位行列$E$となるような行列$A^{-1}$を逆行列という。逆数の概念を行列に拡張したものであるため$A^{-1}$という表現が用いられる。
AA^{-1} = A^{-1}A = E
1.5. 行列式
行列式は逆行列の存在性を示す際に扱われ、ここでは厳密な定義は省略するが、正方行列$A$に対する行列式は$\det{A}$や$|A|$と表記がよく用いらる。計算方法として代表的なものとして余因子展開がある。2次正方行列の行列式と3次正方行列の行列式は以下のような形になることが知られている。
\det{\left(
\begin{array}{cc}
a_{11} & a_{12}\\
a_{21} & a_{22}
\end{array}
\right)}
=a_{11}a_{22} - a_{12}a_{21}
\begin{equation*}
\begin{split}
\det{\left(
\begin{array}{cc}
a_{11} & a_{12}& a_{13}\\
a_{21} & a_{22}& a_{23}\\
a_{31} & a_{32}& a_{33}
\end{array}
\right)}
&=a_{11}a_{22}a_{33} +a_{12}a_{23}a_{31} +a_{13}a_{21}a_{32} \\
&\quad-a_{11}a_{23}a_{32} - a_{12}a_{21}a_{33} - a_{13}a_{22}a_{31}
\end{split}
\end{equation*}
1.6. 固有値・固有ベクトル
正方行列$A$に対して以下を満たすスカラー$λ$を固有値、ベクトル$\boldsymbol{v}$($\neq\boldsymbol{0}$)を固有ベクトルという。
A\boldsymbol{v} = λ\boldsymbol{v}
1.7. 固有値分解
ここでは$n$次正方行列$A$の固有値・固有ベクトルの存在を仮定する。
$n$次正方行列$A$の固有値$\lambda_{1}$, $\cdots$ ,$\lambda_{n}$を対角成分に持つ以下の対角行列(他の成分は0)
\Lambda=\left(
\begin{array}{cccc}
\lambda_{1} & & & \\
& \lambda_{2} & & \\
& &\ddots & \\
& & & \lambda_{n}
\end{array}
\right)
と対応する固有ベクトルを並べた以下の行列
V=\left(
\begin{array}{cccc}
\boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \cdots & \boldsymbol{v}_{n}
\end{array}
\right)
に対して、以下が成り立つが、これを行列$A$の固有値分解という。
A=V\Lambda V^{-1}
1.8. 特異値・特異ベクトル
$m×n$行列$M$($m≧n$)に対して、以下を満たす非負の実数$\sigma$を特異値、単位ベクトル$\boldsymbol{u}$を左特異ベクトル、$\boldsymbol{v}$を右特異ベクトルという。ここで$M^{T}$は$M$の転置行列である。
M\boldsymbol{u} = \sigma\boldsymbol{u} \\
M^{T}\boldsymbol{v} = \sigma\boldsymbol{v}
1.9. 特異値分解
ここでは$m×n$行列$M$($m≧n$、$rankM$=$r$)の特異値・特異ベクトルの存在を仮定する。
行列$M$の特異値$\sigma_{1}$, $\cdots$ ,$\sigma_{r}$を対角成分に持つ以下の対角行列(他の成分は0)
\Sigma=\left(
\begin{array}{cccc}
\sigma_{1} & & & \\
& \sigma_{2} & & \\
& &\ddots & \\
& & & \sigma_{r}
\end{array}
\right)
と対応する左特異ベクトルを並べた以下の行列
U=\left(
\begin{array}{cccc}
\boldsymbol{u}_{1} & \boldsymbol{u}_{2} & \cdots & \boldsymbol{u}_{r}
\end{array}
\right)
および、右特異ベクトルを並べた以下の行列
V=\left(
\begin{array}{cccc}
\boldsymbol{v}_{1} & \boldsymbol{v}_{2} & \cdots & \boldsymbol{v}_{r}
\end{array}
\right)
に対して、以下が成り立つが、これを行列$M$の特異値分解という。
M=U\Sigma V^{T}
#2. 確率・統計
##2.1. 確率
有限個の根元事象からなる標本空間$U$をもつ試行において、どの根元事象も同様に確からしく起こるものとする。このとき、この試行の事象$A$について、
P(A)=\frac{n(A)}{n(U)}
を事象$A$の確率という。ただし、$n(U)$、$n(A)$はそれぞれ$U$と$A$に含まれている根元事象の個数を表す。
##2.2. 条件付き確率
事象$B$が起こったという条件のもとで、事象$A$が起こる確率を$P(A|B)$で表し、
P(A|B)=\frac{P(A \cap B)}{P(B)}
で定義する。ただし$P(B)≠0$。これを事象$B$のもとでの事象$A$の条件付き確率という。
##2.3. 独立な事象の同時確率
事象$A$、$B$について、
P(A \cap B)=P(A)P(B)
が成り立つとき、$A$と$B$は独立であるという。
##2.4. ベイズの定理
$U$を標本空間、$B_{1}$、$B_{2}$を$U$の事象とし、$U=B_{1} \cup B_{2}$かつ$B_{1} \cap B_{2} = \phi$と仮定する。このとき、事象$A$について以下の式が成立し、これをベイズの定理という。
P(B_{1}|A)=\frac{P(A|B_{1})P(B_{1})}{P(A|B_{1})P(B_{1})+P(A|B_{2})P(B_{2})}
ただし、$P(A)≠0$、$P(B_{1})≠0$、$P(B_{2})≠0$とする。
##2.5. 確率変数
試行の根元事象により値が定まる変数$X$を確率変数といい、特に値を連続的には取らない確率変数を離散的な確率変数、連続的に値を取る確率変数を連続的な確率変数という。
##2.6. 確率分布
2.6.1. 離散的な確率分布
離散的な確率変数$X$について、
f(x_{i})=P(X=x_{i})\ \ \ (i=1,2,\cdots,n)
により定まる関数$f$を確率変数$X$の確率分布という。
2.6.2. 連続的な確率分布
連続的な確率変数$X$が、任意の実数$a$、$b$($a<b$)に対して、
P(a<X≦b)=\int_a^b f(x)dx
となるような関数$f$を持つとき、$f$を確率変数$X$の確率密度関数といい、$X$は確率分布$f$に従うという。
2.7. 期待値
2.7.1. 離散的な確率変数の期待値
離散的な確率変数$X$の確率分布を$f$とするとき、
E[X]=\sum_{i=1}^{n}x_{i}f(x_{i})
を$X$の期待値という。
2.7.2. 連続的な確率変数の期待値
連続的な確率変数$X$の確率密度関数を$f$とするとき、
E[X]=\int_{-\infty}^{\infty}xf(x)dx
を$X$の期待値という。
2.8. 分散と標準偏差
確率変数$X$に対して、
V[X]=E[(X-E(X))^{2}]
を$X$の分散といい、以下が成立することが知られている。
V[X]=E[X^{2}]-E[X]^{2}
また、分散の平方根
\sigma=\sqrt{V[X]}
を$X$の標準偏差という。
##2.9. 共分散
2つの確率変数$X$、$Y$に対して、
C[X,Y]=E[(X-E[X])(Y-E[Y])]
を$X$と$Y$の共分散といい、以下が成り立つことが知られている。
C[X,Y]=E[XY]-E[X]E[Y]
2.10. 様々な確率分布
2.10.1. ベルヌーイ分布
離散的な確率変数$X$が確率分布
f(x)=p^{x}q^{1-x} \ \ \ (p>0, q>0, p+q=1, x=0,1)
に従うとき、$X$はベルヌーイ分布に従うという。
2.10.2. マルチヌーイ分布
離散的な確率変数$X$が確率分布
f(x)=\prod_{i=1}^{K}p_{i}^{[x=i]} \ \ \ (p_{i}>0 for i = 1, \cdots, n, \sum_{i=1}^{K}p_{i}=1, x=1,2,\cdots,K)
に従うとき、$X$はマルチヌーイ分布に従うという。
ここで、$[x=i]$は$x=i$のとき1をとり、そうでないとき0をとる。
2.10.3. 二項分布
離散的な確率変数$X$が確率分布
f(x)={}_nC_xp^{x}q^{1-x} \ \ \ (p>0, q>0, p+q=1, x=0,1,2,\cdots,n)
に従うとき、$X$は二項分布$B(n,p)$に従うという。ベルヌーイ分布の場合は$B(1,p)$である。
2.10.4. ガウス分布
連続的な確率変数$X$が確率密度関数
f(x)=\frac{1}{\sqrt{2\pi\sigma}}\exp(-\frac{(x-\mu)^2}{2\sigma^{2}})
をもつとき、$X$は正規分布$N(\mu,\sigma^{2})$に従うという。
#3. 情報理論
3.1. 自己情報量
事象$A$の起こる確率が$P(A)$であるとき、事象$A$が起こることの自己情報量は以下によって定義される。
I(A)=-log_{2}P(A)
##3.2. シャノンエントロピー
離散的な確率変数$X$において、$p(x)=P(X=x)$としたとき、以下の式を$X$のシャノンエントロピーという。
H(X)=-\sum_{x}p(x)log_{2}p(x)
また、連続的な確率変数$X$の場合、確率密度関数$p(x)$をもつとすると、シャノンエントロピーは以下のように定義される。
H(X)=-\int_{}^{}p(x)log_{2}p(x)dx
##3.3. カルバック・ライブラーダイバージェンス
$P$と$Q$を確率変数$X$の確率とする。
$X$が離散型の場合、$p(x)=P(X=x)$、$q(x)=Q(X=x)$としたとき、カルバック・ライブラーダイバージェンスは以下のように定義される。
D_{KL}(P|Q)=\sum_{x}p(x)log_{2}\frac{p(x)}{q(x)}
$X$が連続型の場合、$P$のもとでの確率密度関数を$p(x)$、$Q$のもとでの確率密度関数を$q(x)$としたとき、カルバック・ライブラーダイバージェンスは以下のように定義される。
D_{KL}(P|Q)=\int_{}^{}p(x)log_{2}\frac{p(x)}{q(x)}dx
##3.4. 交差エントロピー
$P$と$Q$を確率変数$X$の確率とする。
$X$が離散型の場合、$p(x)=P(X=x)$、$q(x)=Q(X=x)$としたとき、交差エントロピーは以下のように定義される。
H(P,Q)=\sum_{x}p(x)log_{2}q(x)
$X$が連続型の場合、$P$のもとでの確率密度関数を$p(x)$、$Q$のもとでの確率密度関数を$q(x)$としたとき、交差エントロピーは以下のように定義される。
H(P,Q)=\int_{}^{}p(x)log_{2}q(x)dx
$P$のシャノンエントロピーを$H(P)$とすると、交差エントロピーはカルバック・ライブラーダイバージェンスを用いて以下のように表現できる。
H(P,Q)=H(P)+D_{KL}(P|Q)