1.線形代数学
- スカラーとベクトルの違い
スカラーとは、『大きさ』のみを持つ量のことを指します。
$$
{
a
}\
$$
ベクトルとは、『大きさと向き』を持つ量のことを指します。
$$
{
\vec{AB}
}\
$$
- 行列とは
スカラーを表にしたもの
A =\begin{bmatrix}
a & b \\
c & d \\
\end{bmatrix}
ベクトルを並べたもの
B =\begin{bmatrix}
\vec{AB} & \vec{CD}
\end{bmatrix}
- 単位行列
単位行列とは、行列の対角の成分が全て1、それ以外の成分が0のものである。
E =\begin{bmatrix}
1 & 0 \\
0 & 1
\end{bmatrix}
- 逆行列
逆行列とはある正方行列A、Xの積が単位行列となるときの正方行列Xのことです。
Aの逆行列を$A^{-1}$で表します。
AA^{-1}=E=\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{bmatrix}
- アダマール積
{\begin{bmatrix}
a & b \\
c & d
\end{bmatrix}
\odot
\begin{bmatrix}
e & f \\
g & h
\end{bmatrix}
=
\begin{bmatrix}
a \times e & b \times f \\
c \times g & d \times h
\end{bmatrix}
}
- 行列積
AB=
{\begin{bmatrix}
a & b \\
c & d \\
e & f
\end{bmatrix}
\times
\begin{bmatrix}
g & h & i \\
j & k & l
\end{bmatrix}
}
=
{\begin{bmatrix}
a \times g+b \times h & a \times h+b \times k & a \times i+b \times l \\
c \times g+d \times h & c \times h+d \times k & c \times i+d \times l \\
e \times g+f \times h & e \times h+f \times k & e \times i+f \times l
\end{bmatrix}
}
- 行列の転置
A=\begin{bmatrix}
a & b & c \\
d & e & f
\end{bmatrix}
とすると、行列Aの転置は、
A^{T}=\begin{bmatrix}
a & d \\
b & e \\
c & f
\end{bmatrix}と表される。
- 固有値
固有値とは、その方向のベクトルで変換前と変換後のベクトルの長さの比のことをいう。
固有値をλとすると、固有値方程式は
A-λE=0であるから
{\begin{bmatrix}
a & b \\
c & d
\end{bmatrix}
-λ
\begin{bmatrix}
1 & 0 \\
0 & 1
\end{bmatrix}
=0
}となり、
{\begin{bmatrix}
a-λ & b \\
c & d-λ
\end{bmatrix}
=0
}となる。
- 固有値ベクトル
固有値方程式に求めた固有値をλを代入して求める。
{\begin{bmatrix}
a-λ & b \\
c & d-λ
\end{bmatrix}
\begin{bmatrix}
x_{1} \\
x_{2}
\end{bmatrix}
=
\begin{bmatrix}
0 \\
0
\end{bmatrix}
}に代入して求める。
2.確率・統計
- 条件付き確率
P(Y|X)=\frac{P(Y,X)}{P(X)}
- 同時確率
P(X,Y)=P(X)P(Y)
- ベイズ則
P(X|Y)=\frac{P(Y|X)P(X)}{P(Y)}
- 期待値
E(f) := \sum_{x \in X}{f(x)P(x)}
- 分散
Var(f) = E((f - E_f)^2) \\
Var(f) = E(f^2) - E(f)^2
- 共分散
Cov(f, g) := E((f - E_f)(g - E_g))
- 標準偏差
{σ=\sqrt{Var(f)}=\sqrt{E((f_{(X=x)}-E_{(f)})^2)}
}
- ベルヌーイ分布
{P(x|μ)=μ^x(1-μ)^{1-x}
}
- 二項分布
{P(x|λ,n)=\frac{n!}{x!(n-x)!}λ^x(1-λ)^{n-x}
}
- ガウス分布
{N(x;μ,σ^2)=\sqrt{\frac{1}{2\pi σ^2}}exp(-\frac{1}{2σ^2}(x-μ)^2)
}
3.情報理論
- 自己情報量
事象そのものの情報量を指す。
「確率の関数」・「減少関数」・「加法性」という3つの性質がある。
I(x) := -log(P(x)) = log(W(x))
- シャノンエントロピー
H(x) = E(I(x))
- カルバック・ライブラーダイバージェンス
D_{KL}(P||Q) := \sum{P(i)\log{\frac{P(i)}{Q(i)}}}
- 交差エントロピー
{D_{KL}(P||Q)=\sum_xP(x)(-log(Q(x)))-(-log(P(x))) \\
H(P,Q)=H(P)+D_{KL}(P||Q) \\
H(P,Q)=-E_{x~P}logQ(x)=-\sum_xP(x)logQ(x)
}