線形代数
スカラーとベクトル
- スカラー
- いわゆる普通の数
- 四則演算ができる
- ベクトルに対する係数になれる
- ベクトル
- 大きさと向きを持つ
- 矢印で図示される
- スカラーとセットで表示される
行列
- 行列の基本
- スカラーを表にしたもの
- ベクトルを並べたもの
- ベクトルの変換ができる
{\begin{pmatrix}
1 & 2 & 3 \\
3 & 2 & 1
\end{pmatrix}
}
- 行列とベクトルの積
{\begin{pmatrix}
6 & 4 \\
3 & 5
\end{pmatrix}
\begin{pmatrix}
1 \\ 2
\end{pmatrix}
=
\begin{pmatrix}
(6×1)+(4×2) \\
(3×1)+(5×2)
\end{pmatrix}
=
\begin{pmatrix}
14 \\ 13
\end{pmatrix}
}
- 行列と行列の積
{\begin{pmatrix}
2 & 1 \\
4 & 1
\end{pmatrix}
\begin{pmatrix}
1 & 3 \\
3 & 1
\end{pmatrix}
=
\begin{pmatrix}
(2×1)+(1×3) & (2×3)+(1×1)\\
(4×1)+(1×3) & (4×3)+(1×1)
\end{pmatrix}
=
\begin{pmatrix}
5 & 5 \\
7 & 13
\end{pmatrix}
}
- 単位行列
対角成分が1
それ以外が0の行列
{\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{pmatrix}
}
固有値と固有ベクトル
ある行列Aに対して、以下の式を考える。
A\vec{x} = λ\vec{x}
行列Aとベクトル$\vec{x}$の積は、スカラーλとベクトル$\vec{x}$との積と同じ値になる。
ベクトル$\vec{x}$を行列Aに対する固有ベクトル、
係数λを行列Aに対する固有値という。
固有値固有ベクトルの例
{\begin{pmatrix}
1 & 4 \\
2 & 3
\end{pmatrix}
\begin{pmatrix}
1 \\ 1
\end{pmatrix}
=
\begin{pmatrix}
5 \\ 5
\end{pmatrix}
=5
\begin{pmatrix}
1\\ 1
\end{pmatrix}
}
このとき、
A=
{\begin{pmatrix}
1 & 4 \\
2 & 3
\end{pmatrix},
}
𝜆=5,
\vec{x}=
{\begin{pmatrix}
1 \\
1
\end{pmatrix}
}
となる。
行列Aについて固有値𝜆=5、固有ベクトル$\vec{x}={\begin{pmatrix} 1 \ 1\end{pmatrix}}$である。
固有値分解
ある実数を正方形にならべて作られた行列A(Aは正方行列)が固有値と固有ベクトルを持つとする。この固有値を対角線上に並べた行列Λ(Λは対角行列:対角線上以外の成分は0)
{Λ =
\begin{pmatrix}
λ_1 & \\
& λ_2 \\
& & \ddots
\end{pmatrix}
}
と、それに対応する固有ベクトルを並べた行列V(Vは正則行列:掛け合わせると単位行列になる)
{V =
\begin{pmatrix}
\vec{v_1} & \vec{v_1} & \cdots
\end{pmatrix}
}
を用意した時、それらは
AV = VΛ
と関係付けられる。したがって
A = VΛV^{-1}
と変形できる。このように正方形の行列を3つの行列の積に変換することを固有値分解という。この変換によって行列の累乗の計算が容易になる等の利点がある。
確率
- 条件付き確率
事象Aが起こっているという条件で事象Bが起きる確率は下記の式のようになる。
P(B|A)=P(B∩A)P(A)
A = VΛV^{-1}
- 期待値
変数Xの取りうる値$x_1$,$x_2$,...,$x_n$に対してそれぞれ確率$p_1$,$p_2$,...,$p_n$が定まっているとき、変数$X$を確率変数という。
また、下記のような式を、期待値という。
\sum_{n=1}^{k}x_ip_i
- 分散
V(X)=E(X^2)−(E(X))^2
- 標準偏差
σ=\sqrt{V(X)}$$
- ベルヌーイ分布
P(x|μ)=p^x(1−p)^{(1−x)}
- 二項分布
P(x|λ,n)=\frac{n!}{x!(n−x)!}λ^x(1−λ)^{(n−x)}
- 正規分布
N(x;μ,σ2)=\frac{1}{\sqrt{2πσ^2}}exp{(-\frac{(x-μ)^2}{2σ^2})}
情報理論
- 自己情報量
自己情報量$I(x)$に対する確率分布を$P(x)$としたとき
I(x)= -log\bigl(P(x)\bigr)
- 平均情報量(シャノンエントロピー)
自己情報量$H(x)$の期待値$E(x)$としたとき
H(x)=E\bigl(I(x)\bigr)= -E\bigl(log\bigl(P (x)\bigr)
\bigr)= -\sum\bigl(P(x)log\bigl(P (x)\bigr)
\bigr)
- カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
D_{KL}(P||Q) =
E_{X\sim P}\begin{bmatrix}
log\frac{P(x)}{Q(x)}
\end{bmatrix}
=
E_{X\sim P}
\begin{bmatrix}
logP(x)-logQ(x)
\end{bmatrix}
- 交差エントロピー
PのエントロピーにPのQに対するKL情報量を足したもの
H(P,Q) = H(P) + D_{KL}(P||Q) \\
H(P,Q) = -E_{X\sim P} log(Q(x)