#初めに
- 本記事はJDLAのE資格の認定プログラム「ラビット・チャレンジ」における応用数学のレポート記事です。
- 線形代数
- 確率・統計
- 情報理論
#1. 線形代数
線形代数とは**「線型写像の性質について考える数学の分野」**と言えます。
線形代数(行列)は画像処理・3次元データ処理、統計学、量子力学、Googleのサイト評価システムなど、様々な技術や学問がその恩恵を受けています。よって機械学習を習得する上では欠かせない学問領域になるわけです。
##1.1 行列
-
行列とは、
- スカラー(四則演算が可能ないわゆる普通の数)を表のようにしてまとめたもの
- あるいは、ベクトル(大きさと向きを持つ)を並べたものです(行列:ベクトルのベクトル)
-
行ベクトル
$$
x = (x _ 1, x _ 2, \ldots, x _ d) \in \mathbb{R} ^ d
$$
- 列ベクトル
x = \left(
\begin{matrix}
x _ 1 \\
x _ 2 \\
\vdots \\
x _ d \\
\end{matrix}
\right) \in \mathbb{R} ^ d
- 行列
\begin{eqnarray}
A = \left(
\begin{array}{cccc}
a_{ 11 } & a_{ 12 } & \ldots & a_{ 1n } \\
a_{ 21 } & a_{ 22 } & \ldots & a_{ 2n } \\
\vdots & \vdots & \ddots & \vdots \\
a_{ m1 } & a_{ m2 } & \ldots & a_{ mn }
\end{array}
\right)
\end{eqnarray}
##1.2 連立方程式との関係
例えば以下のような連立方程式があります。
\left\{\begin{array}{l}
2 x+4 y=7 \\
x+3 y=6
\end{array}\right.
しかし、連立方程式は複雑(もっと式が増えると大変になる)なので、ax=bのようにシンプルに表したいというモチベーションのもと、行列式に変換すると以下のように表すことができます。
\left(\begin{array}{ll}
2 & 4 \\
1 & 3
\end{array}\right)\left(\begin{array}{l}
x \\
y
\end{array}\right)=\left(\begin{array}{l}
7 \\
6
\end{array}\right)
##1.3 行列とベクトルの積
行列の計算式は以下のように示せます。
変換後の新たな要素のある一つは、元の第一成分、第二成分の要素から影響を受けているので、行列を変換したと言えます。
\begin{gathered}
\left(\begin{array}{ll}
6 & 4 \\
3 & 5
\end{array}\right)\left(\begin{array}{l}
1 \\
2
\end{array}\right)=\left(\begin{array}{l}
6 \times 1+4 \times 2 \\
3 \times 1+5 \times 2
\end{array}\right) \\
=\left(\begin{array}{c}
6+8 \\
3+10
\end{array}\right)=\left(\begin{array}{l}
14 \\
13
\end{array}\right)
\end{gathered}
##1.4 行列の積
形式的には「行」と「列」をかけるだけで直感的に計算ができます。
例えば2×2の行列式では以下のように計算できます。
\left(\begin{array}{lll}
a_{11} & a_{12}\\
a_{21} & a_{22}
\end{array}\right)\left(\begin{array}{lll}
b_{11} & b_{12}\\
b_{21} & b_{22}
\end{array}\right)=\left(\begin{array}{lll}
a_{11} b_{11}+a_{12} b_{21} & a_{11} b_{12}+a_{12} b_{22} \\
a_{21} b_{11}+a_{22} b_{21} & a_{21} b_{12}+a_{22} b_{22}
\end{array}\right)
より
\begin{aligned}
\left(\begin{array}{ll}
2 & 1 \\
4 & 1
\end{array}\right)\left(\begin{array}{ll}
1 & 3 \\
3 & 1
\end{array}\right) &=\left(\begin{array}{ll}
2 \times 1+1 \times 3 & 2 \times 3+1 \times 1 \\
4 \times 1+1 \times 3 & 4 \times 3+1 \times 1
\end{array}\right) \\
&=\left(\begin{array}{cc}
5 & 7 \\
7 & 13
\end{array}\right)
\end{aligned}
と表すことができます。
また、3×3の場合は以下のように示すことができます。
\left(\begin{array}{lll}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
a_{31} & a_{32} & a_{33}
\end{array}\right)\left(\begin{array}{lll}
b_{11} & b_{12} & b_{13} \\
b_{21} & b_{22} & b_{23} \\
b_{31} & b_{32} & b_{33}
\end{array}\right)
=\left(\begin{array}{lll}
a_{11} b_{11}+a_{12} b_{21}+a_{13} b_{31} & a_{11} b_{12}+a_{12} b_{22}+a_{13} b_{32} & a_{11} b_{13}+a_{12} b_{23}+a_{13} b_{33} \\
a_{21} b_{11}+a_{22} b_{21}+a_{23} b_{31} & a_{21} b_{12}+a_{22} b_{22}+a_{23} b_{32} & a_{21} b_{13}+a_{22} b_{23}+a_{23} b_{33} \\
a_{31} b_{11}+a_{32} b_{21}+a_{33} b_{31} & a_{31} b_{12}+a_{32} b_{22}+a_{33} b_{32} & a_{31} b_{13}+a_{32} b_{23}+a_{33} b_{33}
\end{array}\right)
##1.5 加減法(連立方程式と行列の関係)
行基本変形では、「i行目をc倍する。s行目にt行目のc倍を加える。p行目とq行目を入れ替える。」のように考えれば解けます。どういうことか実際に解いていきたいと思います。
例えば以下のような連立方程式を考えます。
\left\{\begin{array}{c}
x_{1}+4 x_{2}=7 \\
2 x_{1}+6 x_{2}=10
\end{array}\right.
2行目を1/2倍する。
\left\{\begin{array}{l}
x_{1}+4 x_{2}=7 \\
x_{1}+3 x_{2}=5
\end{array}\right.
1行目に2行目の-1倍を加える。
\left\{\begin{array}{r}
x_{2}=2 \\
x_{1}+3 x_{2}=5
\end{array}\right.
2行目に1行目の-3倍を加える。
\left\{\begin{array}{c}
x_{2}=2 \\
x_{1}=-1
\end{array}\right.
1行目と2行目を入れ替える。
\left\{\begin{array}{c}
x_{1}=-1 \\
x_{2}=2
\end{array}\right.
このように行基本変形を行うことで連立方程式は解けます。
ところで、この連立方程式を行列で表すと以下のように表せます。
\left(\begin{array}{ll}
1 & 4 \\
2 & 6
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
7\\
10
\end{array}\right)
2行目を1/2倍する。
\left(\begin{array}{ll}
1 & 4 \\
1 & 3
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
7\\
5
\end{array}\right)
1行目に2行目の-1倍を加える。
\left(\begin{array}{ll}
0 & 1 \\
1 & 3
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
2\\
5
\end{array}\right)
2行目に1行目の-3倍を加える。
\left(\begin{array}{ll}
0 & 1 \\
1 & 0
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
2\\
-1
\end{array}\right)
1行目と2行目を入れ替える。
\left(\begin{array}{ll}
1 & 0 \\
0 & 1
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
-1\\
2
\end{array}\right)
この行基本変形は行列の変形と言い換えることができます。よって行列の計算をしていると考えることができます。それは以下のように示せます。
まず、先ほどと同様の式で考えると
\left(\begin{array}{ll}
1 & 4 \\
2 & 6
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
7\\
10
\end{array}\right)
を1/2倍するというのは、このように表せます。
左の式
\left(\begin{array}{ll}
1 & 0 \\
0 & 1/2
\end{array}\right)\left(\begin{array}{l}
1 & 4 \\
2 & 6
\end{array}\right)=\left(\begin{array}{l}
1 & 4 \\
1 & 3
\end{array}\right)
右の式
\left(\begin{array}{ll}
1 & 0 \\
0 & 1/2
\end{array}\right)\left(\begin{array}{l}
7 \\
10
\end{array}\right)=\left(\begin{array}{l}
7 \\
5
\end{array}\right)
その他の成分も同様に表せることから行列の積であることがわかります。
よって行基本変形では、連立方程式と同様に考えて計算することが以下の式よりわかります。
i行目をc倍する。(C倍したい要素だけ変換できる)
Q_{i, c}=\left(\begin{array}{ccccccc}
1 & & & & & & \\
& \ddots & & & & & \\
& & 1 & & & & \\
& & & c & & & \\
& & & & 1 & & \\
& & & & & \ddots & \\
& & & & & & 1
\end{array}\right)
s行目にt行目のc倍を加える。(s, tの成分に数値を代入することでc倍を加えられる)
R_{s, t, c}=\left(\begin{array}{ccccccc}
1 & & & & & & \\
& \ddots & & & & & \\
& & 1 & & c & & \\
& & & \ddots & & & \\
& & & & 1 & & \\
& & & & & & 1
\end{array}\right)
p行目とq行目を入れ替える。(入れ替えたいところを1とする)
P_{p, q}=\left(\begin{array}{ccccccc}
1 & & & & & & \\
& \ddots & & & & & \\
& & 0 & & 1 & & \\
& & & \ddots & & & &\\
& & 1 & & 0 & & & & \\
& & & & & \ddots & \\
& & & & & & 1
\end{array}\right)
##1.6 単位行列
元の数と変化させない行列
I=\left(\begin{array}{lll}
1 & & \\
& 1 & \\
& & \ddots
\end{array}\right)
具体例
\begin{aligned}
&\left(\begin{array}{ll}
1 & 0 \\
0 & 1
\end{array}\right)\left(\begin{array}{ll}
2 & 3 \\
1 & 9
\end{array}\right)=\left(\begin{array}{ll}
2 & 3 \\
1 & 9
\end{array}\right) \\
&\left(\begin{array}{ll}
2 & 3 \\
1 & 9
\end{array}\right)\left(\begin{array}{ll}
1 & 0 \\
0 & 1
\end{array}\right)=\left(\begin{array}{ll}
2 & 3 \\
1 & 9
\end{array}\right)
\end{aligned}
##1.7 逆行列
逆行列は以下のように示せます。
$$
A A^{-1}=A^{-1} A=I
$$
\left(\begin{array}{cc}
1 & 1 \\
1 & -1 / 2
\end{array}\right)\left(\begin{array}{cc}
1 / 3 & 2 / 3 \\
2 / 3 & -2 / 3
\end{array}\right)=\left(\begin{array}{ll}
1 & 0 \\
0 & 1
\end{array}\right)
は互いに逆行列です。
##1.8 逆行列の求め方(掃き出し法)
\left(\begin{array}{ll}
1 & 4 \\
4 & 6
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
7 \\
10
\end{array}\right)
を
\left(\begin{array}{ll}
1 & 4 \\
2 & 6
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=\left(\begin{array}{l}
1 & 0 \\
0 & 1
\end{array}\right)\left(\begin{array}{l}
7 \\
10
\end{array}\right)
と考えて掃き出し法で逆行列を求めます。
\left(\begin{array}{ll|ll}
1 & 4 & 1 & 0 \\
2 & 6 & 0 & 1
\end{array}\right)
2行目を1/2倍にする
\left(\begin{array}{ll|ll}
1 & 4 & 1 & 0 \\
1 & 3 & 0 & \frac{1}{2}
\end{array}\right)
1行目に2行目の-1倍を加える
\left(\begin{array}{cc|cc}
0 & 1 & 1 & -\frac{1}{2} \\
1 & 3 & 0 & \frac{1}{2}
\end{array}\right)
2行目に1行目の-3倍を加える
\left(\begin{array}{cc|cc}
0 & 1 & 1 & -\frac{1}{2} \\
1 & 0 & -3 & 2
\end{array}\right)
1行目と2行目を入れ替える
\left(\begin{array}{cc|cc}
1 & 0 & -3 & 2 \\
0 & 1 & 1 & -\frac{1}{2}
\end{array}\right)
このように逆行列が求まりました。
\left(\begin{array}{ll}
1 & 4 \\
2 & 6
\end{array}\right)^{-1}=\left(\begin{array}{cc}
-3 & 2 \\
1 & -\frac{1}{2}
\end{array}\right)
##1.9 逆行列が存在しない条件
逆行列が存在しない条件は以下のように表せます。
\left(\begin{array}{ll}
a & b \\
c & d
\end{array}\right)
という行列があった時、
$$
a: b \neq c: d
$$
の時、逆行列をもち
$$
a: b=c: d
$$
の時、逆行列を持たない
$$
a d=b c
$$
$$
a d-b c=0
$$
このような方程式は逆行列が存在しない
\left\{\begin{array} { c }
{ x _ { 1 } + 4 x _ { 2 } = 7 } \\
{ x _ { 1 } + 4 x _ { 2 } = 1 0 }
\end{array} \quad \left\{\begin{array} { c }
{ x _ { 1 } + 4 x _ { 2 } = 7 } \\
{ 2 x _ { 1 } + 8 x _ { 2 } = 1 4 }
\end{array} \quad \left\{\begin{array}{c}
x_{1}+4 x_{2}=7 \\
0 \cdot x_{1}+0 \cdot x_{2}=0
\end{array}\right.\right.\right.
##1.10 行列式
ある一つの正方行列に、ある一つの数値が対応する「大きさ」みたいなものです。
\left|\begin{array}{ll}
a & b \\
c & d
\end{array}\right|=a d-b c
\begin{aligned}
&\left|\begin{array}{lll}
a_{11} & a_{12} & a_{13} \\
a_{21} & a_{22} & a_{23} \\
a_{31} & a_{32} & a_{33}
\end{array}\right| \\
&\quad=a_{11}\left|\begin{array}{ll}
a_{22} & a_{23} \\
a_{32} & a_{33}
\end{array}\right|-a_{21}\left|\begin{array}{ll}
a_{12} & a_{13} \\
a_{32} & a_{33}
\end{array}\right|+a_{31}\left|\begin{array}{ll}
a_{12} & a_{13} \\
a_{22} & a_{23}
\end{array}\right|
\end{aligned}
具体的にはこのように計算します。
\begin{gathered}
\left|\begin{array}{ccc}
5 & 2 & -1 \\
4 & 1 & 0 \\
3 & -1 & 1
\end{array}\right|=5\left|\begin{array}{cc}
1 & 0 \\
-1 & 1
\end{array}\right|-4\left|\begin{array}{cc}
2 & -1 \\
-1 & 1
\end{array}\right|+3\left|\begin{array}{cc}
2 & -1 \\
1 & 0
\end{array}\right| \\
=5 \times(1-0)-4 \times(2-1)+3 \times(0-(-1))=4
\end{gathered}
##1.11 固有値と固有ベクトル
ある行列Aに対して、以下のような式が成り立つとき、行列Aとその特殊なベクトルxの積は、スカラーの数λとその特殊なベクトルxとの積と同じになります。
$$
A \vec{x}=\lambda \vec{x}
$$
例えば、固有値と固有ベクトルは以下のように表せます。
\begin{aligned}
\left(\begin{array}{ll}
1 & 4 \\
2 & 3
\end{array}\right)\left(\begin{array}{l}
1 \\
1
\end{array}\right) &=\left(\begin{array}{l}
5 \\
5
\end{array}\right) \\
&=5\left(\begin{array}{l}
1 \\
1
\end{array}\right)
\end{aligned}
固有値
$$
\lambda=5
$$
固有ベクトル
\vec{x}=\left(\begin{array}{l}
1 \\
1
\end{array}\right)
また、固有値・固有ベクトルを求める時は単位行列を用いて考えます。
A \vec{x}=\lambda \vec{x}
(A-\lambda I) \vec{x}=\overrightarrow{0}
\vec{x} \neq \overrightarrow{0}
より
|A-\lambda I|=0
\left|\begin{array}{cc}
1-\lambda & 4 \\
2 & 3-\lambda
\end{array}\right|=0
(1-\lambda)(3-\lambda)-4 \cdot 2=0
\lambda=5 \text { or }-1
このλ = 5の時では
\left(\begin{array}{ll}
1 & 4 \\
2 & 3
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=5\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)
よって
$$
x_{1}=x_{2}
$$
また、λ = -1の時では
\left(\begin{array}{ll}
1 & 4 \\
2 & 3
\end{array}\right)\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)=-1\left(\begin{array}{l}
x_{1} \\
x_{2}
\end{array}\right)
よって
$$
x_{1}=-2 x_{2}
$$
λ = 5の時
\vec{x}=\left(\begin{array}{l}
1 \\
1
\end{array}\right)
Λ = -1の時
\vec{x}=\left(\begin{array}{c}
2 \\
-1
\end{array}\right)
##1.12 固有値分解
固有値はn×nの行列ではn個あります。
この固有値を対角線上に並べた行列(それ以外の成分は0)
\Lambda=\left(\begin{array}{lll}
\lambda_{1} & & \\
& \lambda_{2} & \\
& & \ddots
\end{array}\right)
と、それに対応する固有ベクトルを並べた行列
V=\left(\begin{array}{lll}
\vec{v}_{1} & \vec{v}_{2} & \cdots
\end{array}\right)
を用意した時に、このように関係付けられます。
A V=V \Lambda
したがって
A=V \Lambda V^{-1}
と変形できます。このように正方形の行列を上述したような3つからなる行列の積に変換することを固有値分解といいます。
具体例:固有値分解をしてみましょう。
\left(\begin{array}{ll}
1 & 4 \\
2 & 3
\end{array}\right)=\left(\begin{array}{cc}
1 & 1 \\
1 & -1 / 2
\end{array}\right)\left(\begin{array}{cc}
5 & 0 \\
0 & -1
\end{array}\right)\left(\begin{array}{cc}
1 / 3 & 2 / 3 \\
2 / 3 & -2 / 3
\end{array}\right)
##1.13 特異値分解
では、正方形以外の行列では?→特異値分解(正方形以外の行列を固有値分解をする方法)
\begin{gathered}
M \vec{v}=\sigma \vec{u} \\
M^{\top} \vec{u}=\sigma \vec{v}
\end{gathered}
このように特殊な単位ベクトルがあるならば特異値分解できます。
M=U S \mathrm{~V}^{-1}
特異値の求め方
\begin{array}{ll}
M V=U S & M^{\top} U=V S^{\top} \\
M=U S V^{-1} & M^{\top}=V S^{\top} U^{-1}
\end{array}
これらの積は
M M^{\top}=U S V^{-1} V S^{\top} U^{-1}=U S S^{\top} U^{-1}
つまり、MとMの転置を固有値分解すれば計算できます。
具体例
\begin{aligned}
&M=\left(\begin{array}{lll}
1 & 2 & 3 \\
3 & 2 & 1
\end{array}\right) \\
&=\left(\begin{array}{cc}
1 / \sqrt{2} & -1 / \sqrt{2} \\
1 / \sqrt{2} & 1 / \sqrt{2}
\end{array}\right)\left(\begin{array}{ccc}
2 \sqrt{6} & 0 & 0 \\
0 & 2 & 0
\end{array}\right)\left(\begin{array}{ccc}
1 / \sqrt{3} & 1 / \sqrt{3} & 1 / \sqrt{3} \\
1 / \sqrt{2} & 0 & -1 / \sqrt{2} \\
1 / \sqrt{6} & -2 / \sqrt{6} & 1 / \sqrt{6}
\end{array}\right)
\end{aligned}
#2 確率・統計
##2.1 頻度確率(客観確率)とベイズ確率(主観確率)
頻度確率とは、発生する頻度のことを言います。例えば、10本のうち1本だけ当たりのくじを引いて当選する確率を調べたところ1%であった。という事実など。
ベイズ確率とは、信用度の度合いです。例えばあなたは40%の確率でインフルエンザですという診断のような度合いのことです。
##2.2 条件付き確率
ある事象X=xが与えられた下で、Y=yとなる確率
P(Y=y \mid X=x)=\frac{P(Y=y, X=x)}{P(X=x)}
##2.3 独立な事象の同時確率
お互いの発生には因果関係のない事象X=xとY=yが同時に発生する確率
\begin{aligned}
&P(X=x, Y=y)=P(X=x) P(Y=y) \\
&=P(Y=y, X=x)
\end{aligned}
##2.4 ベイズ測
一般的に事象X=xとY=yに対して以下の式が成り立ちます。
\begin{aligned}
&P(X=x \mid Y=y) P(Y=y) \\
&=P(Y=y \mid X=x) P(X=x)
\end{aligned}
##確率変数と確率分布
##2.5 期待値
期待値とはその分布における確率変数の有り得そうな値です。
事象X | X1 | X2 | ・・・ | Xn |
---|---|---|---|---|
確率変数f(X) | f(X1) | f(X2) | ・・・ | f(Xn) |
確率P(X) | P(X1) | P(X2) | ・・・ | P(Xn) |
期待値E(f)
$$
=\sum_{k=1}^{n} P\left(X=x_{k}\right) f\left(X=x_{k}\right)
$$
連続する期待値E(f)
$$
=\int P(X=x) f(X=x) d x
$$
##2.6 分散と共分散
分散とは、データの散らばり具合です。各々のデータ値が期待値からどれだけずれているか平均したものと考えます。
分散Var(f)はこのように表せます
\begin{aligned}
&=\mathrm{E}\left(\left(f_{(X=x)}-\mathrm{E}_{(f)}\right)^{2}\right) \\
&=\mathrm{E}\left(f_{(X=x)}^{2}\right)-\left(\mathrm{E}_{(f)}\right)^{2}
\end{aligned}
共分散とは、二つのデータ系列の傾向の違いです。例えば、正の値を取れば似た傾向をもち、負の値を取れば逆の傾向がある。また値が0であれば関係性に乏しいと言えます。
共分散Cov(f,g)はこのように表せます。
\begin{aligned}
&=\mathrm{E}\left(\left(f_{(X=x)}-\mathrm{E}(f)\right)\left(g_{(Y=y)}-\mathrm{E}(g)\right)\right) \\
&=\mathrm{E}(f g)-\mathrm{E}(f) \mathrm{E}(g)
\end{aligned}
標準偏差
また分散では2乗してしまっているので元のデータと単位が異なります。そこで2乗することの逆演算をすれば元の単位に戻る。これが標準偏差です。
\begin{aligned}
\sigma &=\sqrt{\operatorname{Var}(f)} \\
&=\sqrt{\mathrm{E}\left(\left(f_{(X=x)}-\mathrm{E}_{(f)}\right)^{2}\right)}
\end{aligned}
##2.7 様々な確率分布
###ベルヌーイ分布
裏と表で出る割合が等しくなくても扱えます
P(x \mid \mu)=\mu^{x}(1-\mu)^{1-x}
###マルチヌーイ分布
サイコロを転がすイメージ(各面の出る割合が等しくなくても扱える)
###二項分布
ベルヌーイ分布の多試行var.
\begin{aligned}
&P(x \mid \lambda, n) \\
&=\frac{n !}{x !(n-x) !} \lambda^{x}(1-\lambda)^{n-x}
\end{aligned}
###ガウス分布(正規分布)
釣鐘型の連続分布
\mathcal{N}\left(x ; \mu, \sigma^{2}\right)=\sqrt{\frac{1}{2 \pi \sigma^{2}}} \exp \left(-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right)
あるいはこのように書くこともできます。
f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^{2}}
#情報理論(Information theory)
情報理論とは、情報・通信を数学的に論じる学問です。応用数学の中でもデータの定量化に関する分野であり、社会生活のなかでの情報の発生,伝送,受理を表現するものです。
##3.1 自己情報量(自己エントロピー)
自己情報量とは、統計物理学におけるエントロピーと同じ考えです。情報の変化を比率で捉えているので、対数の変換を考えます。事象 E が起こる確率を P(x) とするとき、事象 x が起こったと知らされた時の情報量 I(x) を次と定義します。自己情報量は以下のように示すことができます。
I(x)=-\log (P(x))=\log (W(x))
##3.2 シャノンエントロピー
シャノンエントロピーは自己情報量の期待値です。
事象 x が起こる確率を P(x) とし、すべての事象 x ∈ Ω に対して、その情報量の期待値を平均情報量といいます。
\begin{aligned}
&H(x)=E(I(x)) \\
&=-E(\log (P(x))) \\
&=-\sum(P(x) \log (P(x)))
\end{aligned}
##3.3 KLダイバージェンス
Kullback-Leibler divergence (KLダイバージェンス)は、2つの確率分布がどの程度似ているかを表す尺度になります。定義は以下になります。
D_{\mathrm{KL}}(P \| Q)=\mathbb{E}_{\mathrm{x} \sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb{E}_{\mathrm{x} \sim P}[\log P(x)-\log Q(x)]
- 同じ確率分布では0となります
- 常に0を含む正の値となり、確率分布が似ていない程、大きな値となります
K L(p \| p)=\int_{-\infty}^{\infty} p(x) \ln \frac{p(x)}{p(x)} d x=\int_{-\infty}^{\infty} p(x) \ln (1) d x=0
##3.4 交差エントロピー
交差エントロピーとは、
- 2つの確率分布がどれくらい「離れているか」を表す指標です。
- 分類問題の予測の正しさの指標として使えます。
\begin{aligned}
&H(P, Q)=H(P)+D_{\mathrm{KL}}(P \| Q) \\
&H(P, Q)=-\mathbb{E}_{\mathrm{x} \sim P} \log Q(x)
\end{aligned}
pとqが離散確率変数
$$
\mathrm{H}(p, q)=-\sum_{x} p(x) \log q(x)
$$
pとqが連続確率変数
$$
-\int_{X} p(x) \log q(x) d x
$$
#参考文献