第0章: 基礎的な振り返り
対数の計算
- 対数の基本公式
- $ log_{a}(xy) = log_{a}x + log_{a}y $
- $ log_{a}\dfrac{x}{y} = log_{a}x - log_{a}y $
- $ log_{a}(x^n) = nlog_{a}x$
- $ log_{a}\dfrac{1}{x} = -log_{a}x$
- $ log_{a}1 = 0$
- $ log_{a}b = \dfrac{log_{c}b}{log_c{a}}$
場合の数
- 順列: 異なる$n$個のものの中から$r$個取り出して並べる順列
- $ _nP_r = \dfrac{n!}{(n-r)!} $
- $ _nP_r = n(n-1)(n-2) \cdots \cdots (n-r+1) $ ← r個の数の積
- $ _nP_r = \dfrac{n!}{(n-r)!} $
- 組み合わせ: $n$個のものの中から$r$個取り出すときの組み合わせの総数
- $ _nC_r = \dfrac{_nP_r}{r!} = \dfrac{n!}{(n-r)!r!}$
- 並べる順番を考慮しないので、$_nP_r$を$r!$で割る
線形性
- 以下のような1次関数のような性質を線形性と呼ぶ
- $ f(x) + f(y) = f(x + y) $
- $ α・f(x) = f(α・x) $
第1章: 線形代数
定義
- スカラーとベクトル
- スカラーは普通の数、四則演算が可能
- ベクトルは大きさと向きを持つ、スカラーのセット
- 行列
- スカラーを表にしたもの
- ベクトルを並べたもの
- テンソル
- ベクトルや行列を一般化した概念
- ベクトル: 1階のテンソル
- 行列: 2階のテンソル
- N階のテンソルはN次元にスカラーを並べたもの
行列の計算
- 行列とベクトルの積(正確には内積, inner product)
- 行×列の計算
- $ \left(\begin{matrix} a & b \\ c & d \end{matrix}\right)
\left(\begin{matrix} x_1 \\ x_2 \end{matrix}\right)
= \left(\begin{matrix} ax_1 + bx_2 \\ cx_1 + dx_2 \end{matrix}\right) $
- 行列の積$ \boldsymbol{A} \boldsymbol{B} = \boldsymbol{C} $において、$\boldsymbol{A}$の列数Nと、$\boldsymbol{B}$の行数Oが等しくなければならない
- $\boldsymbol{A}$がM行×N列、$\boldsymbol{B}$がO行×P列の時、N=Oでなければならない
- この時、積の結果$C$はM行×P列となる
- 一般的に行列では交換法則は成り立たない
- $\boldsymbol{AB} \neq \boldsymbol{BA}$
- ただし、対角行列と対角行列は交換可能
- $ \left(\begin{matrix} a & 0 \\ 0 & b \end{matrix}\right) \left(\begin{matrix} x & 0 \\ 0 & y \end{matrix}\right) = \left(\begin{matrix} x & 0 \\ 0 & y \end{matrix}\right) \left(\begin{matrix} a & 0 \\ 0 & b \end{matrix}\right)
= \left(\begin{matrix} ax & 0 \\ 0 & by \end{matrix}\right) $
- $ \left(\begin{matrix} a & 0 \\ 0 & b \end{matrix}\right) \left(\begin{matrix} x & 0 \\ 0 & y \end{matrix}\right) = \left(\begin{matrix} x & 0 \\ 0 & y \end{matrix}\right) \left(\begin{matrix} a & 0 \\ 0 & b \end{matrix}\right)
- また、ベクトルの場合は交換法則が成り立つ
- $ \vec{a}·\vec{b} = \vec{b}·\vec{a} $
- ベクトルを一次元の行列として表す場合には、$ \boldsymbol{a}^T·\boldsymbol{b} = \boldsymbol{b}^T·\boldsymbol{a} $
- 分配の法則が成り立つ
- $ (\boldsymbol{A} + \boldsymbol{B})\boldsymbol{C} = \boldsymbol{AC} + \boldsymbol{BC}$
- $ \boldsymbol{C}(\boldsymbol{A} + \boldsymbol{B}) = \boldsymbol{CA} + \boldsymbol{CB}$
転置(Transpose)
- 列ベクトルを行ベクトルに、行ベクトルを列ベクトルに変換する操作
- 転置の公式
- $ (\boldsymbol{A}^T)^T = \boldsymbol{A} $
- $ (\boldsymbol{AB})^T = \boldsymbol{B}^T \boldsymbol{A}^T $
- $ (\boldsymbol{ABC})^T = \boldsymbol{C}^T \boldsymbol{B}^T \boldsymbol{A}^T $
- 転置行列の線形性
- $ (α\boldsymbol{A})^T = α\boldsymbol{A}^T $
- $ (\boldsymbol{A} + \boldsymbol{B})^T = \boldsymbol{A}^T + \boldsymbol{B}^T $
行基本変形
- 行基本変形は3種類
- i行目をc倍する
- s行目にt行目のc倍を加える
- p行目とq行目を入れ替える
- 行基本変形は単位行列を変形した行列を左からかけることで表現できる
- i行目をc倍する: i行i列がc
- s行目にt行目のc倍を加える: s行t列がc
- p行目とq行目を入れ替える: p行p列とq行q列が0、p行q列とq行p列が1
単位行列と逆行列
- 単位行列(Identity Matrix): かけても、かけられても相手が変化しない「1」のような行列、$ \boldsymbol{I} $
- $ \left(\begin{matrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1\end{matrix}\right) $
- 対角要素が全て1、非対角要素が全て0
- 逆行列(Inverse Matrix): 逆数のような働きをする行列、$ \boldsymbol{A}に対して、\boldsymbol{A}^{-1} $
- $ \boldsymbol{AA}^{-1} = \boldsymbol{A}^{-1} \boldsymbol{A} = \boldsymbol{I} $
- 連立方程式を$\boldsymbol{A} \vec{x} = \vec{y}$のように表現すると、$ \boldsymbol{A}^{-1}\boldsymbol{A} \vec{x} = \boldsymbol{A}^{-1} \vec{y} $のように$\vec{y}$に$\boldsymbol{A}^{-1}$を左からかけることによって解くことができる
- 逆行列の求め方: 掃き出し法
- 対象の行列の横に単位行列を並べ、どのように行基本変形したのかを記録する
- $ \left(\begin{array}{cc|cc} a & b & 1 & 0 \\ c & d & 0 & 1\end{array}\right) $
- 逆行列は必ず存在するわけではない
- 逆行列を持つ行列を正則行列という
- $ a:b = c:d $、すなわち$ ad - bc = 0 $の場合には逆行列を持たない
- 傾きが同じ二つのベクトルに囲まれる平行四辺形の面積は0であり、この場合には逆行列を持たない
行列式
- 行列式: ベクトルに囲まれる(=正方行列)平行四辺形の面積
- 行列式が0の場合には、逆行列が存在しない
- 2行2列の場合、
- $ \left|\begin{matrix} a & b \\ c & d \end{matrix}\right| = ad-bc $
- 3行3列の場合、
- $ \left|\begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33}\end{matrix}\right|
=a_{11}\left|\begin{matrix} a_{22} & a_{23} \\ a_{32} & a_{33} \end{matrix}\right|
-a_{21}\left|\begin{matrix} a_{12} & a_{13} \\ a_{32} & a_{33} \end{matrix}\right|
+a_{31}\left|\begin{matrix} a_{12} & a_{13} \\ a_{22} & a_{23} \end{matrix}\right| $ - 2つ目のブロックがマイナスなのは行の入れ替えが発生しているため、3つ目は入れ替えが2回でプラスになる
- $ \left|\begin{matrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33}\end{matrix}\right|
固有値と固有ベクトル
- ある行列$ \boldsymbol{A} $に対して、以下の式が成り立つような、特殊なベクトル$ \vec{x} $を固有ベクトル、λを固有値と呼ぶ
- $\boldsymbol{A}\vec{x} = λ\vec{x}$
- 固有ベクトルは比率を示すので、一意には定まらない
- $ \boldsymbol{A}\vec{x} = λ\vec{x} $は$\left(\begin{matrix} \boldsymbol{A} - λ\boldsymbol{I} \end{matrix}\right) \vec{x}= \vec{0}$と変形できるが、この際、$ \left(\begin{matrix} \boldsymbol{A} - λ\boldsymbol{I} \end{matrix}\right) $は逆行列を持てない、つまり、$\left(\begin{matrix} \boldsymbol{A} - λ\boldsymbol{I} \end{matrix}\right) $の行列式が0となるλが固有値
- $ \left|\begin{matrix} \boldsymbol{A} - λ\boldsymbol{I} \end{matrix}\right| = 0 $
- λを変数とした形で行列式を算出し、λの連立方程式を解くことでλが特定される
- 次に固有値λを$ \boldsymbol{A}\vec{x} = λ\vec{x} $に代入することで、$ x_1, x_2, \cdots $の比率が求まる
- 固有ベクトルは$ \left(\begin{matrix} x_1 \\ x_2 \\ x_3\end{matrix}\right) $の定数倍のように表現される
固有値分解
- 正方行列$ \boldsymbol{A} $が固有値$λ_1, λ_2, \cdots $と固有ベクトル$\vec{v_1}, \vec{v_2}, \cdots $を持ったとして、固有値を対角線上に並べた行列$ \boldsymbol{Λ} $と、それに対応する固有ベクトルを並べた行列$ \boldsymbol{V} $を用意した時、それらは$\boldsymbol{AV} = \boldsymbol{VΛ}$と関係付けられ、そこから、$\boldsymbol{A} = \boldsymbol{VΛV}^{-1}$と変形できる
- $\boldsymbol{Λ} = \left(\begin{matrix} λ_1 & & \\ & λ_2 & \\ & & \ddots\end{matrix}\right)$
- 対角線上の$λ_1, λ_2, \cdots $以外は全て0
- $\boldsymbol{Λ}$は$\boldsymbol{A}$を対角化したもの
- $\boldsymbol{V} = \left(\begin{matrix} \vec{v_1} & \vec{v_2} & \cdots \end{matrix}\right)$
- $\vec{v_n}$は縦ベクトルだが、それを横に並べたもの
- $\boldsymbol{A}\vec{x} = λ\vec{x} $の関係性から、右辺は$\boldsymbol{ΛV}$になりそうだが、ここでは$\boldsymbol{VΛ}$となることに注意
- $\boldsymbol{Λ}$が対角線上以外は全て0のため
- $\boldsymbol{Λ} = \left(\begin{matrix} λ_1 & & \\ & λ_2 & \\ & & \ddots\end{matrix}\right)$
- 固有値分解によって行列の累乗などの計算が容易になる
特異値分解
- 正方行列以外でも、固有値分解「的」なことができる
- $\boldsymbol{M}\vec{v} = σ\vec{u}$、かつ、$\boldsymbol{M}^T\vec{u} = σ\vec{v}$、ここで$\vec{u}, \vec{v}$は単位ベクトル(大きさが1)
- $ \vec{v}, \vec{u} $を行列$\boldsymbol{M}$に対する特異ベクトル、$σ$を特異値と呼ぶ
- $\boldsymbol{M} = \boldsymbol{UΣV}^T$
- $\boldsymbol{Σ}$はσを対角線上に並べた正方行列
- $\boldsymbol{V}, \boldsymbol{U}$は単位ベクトルである$ \vec{v}, \vec{u} $を横に並べたもの、なおかつ直交行列
- 求め方
- $\boldsymbol{MV} = \boldsymbol{UΣ}$, $\boldsymbol{M}^T\boldsymbol{U} = \boldsymbol{VΣ}^T$
- $\boldsymbol{M} = \boldsymbol{UΣV}^T$, $\boldsymbol{M}^T = \boldsymbol{VΣ}^T\boldsymbol{U}^T$
- ここで$\boldsymbol{U}$, $\boldsymbol{V}$は単位ベクトルからできており、なおかつ直交行列、このため$\boldsymbol{U}^T$が$\boldsymbol{U}$の逆行列に、$\boldsymbol{V}^T$が$\boldsymbol{V}$の逆行列にとなる
- これらの積は、$\boldsymbol{MM}^T = \boldsymbol{UΣV}^T\boldsymbol{VΣ}^T\boldsymbol{U}^T = \boldsymbol{UΣΣ}^T\boldsymbol{U}^T$
- $\boldsymbol{M}$は長方形の行列でも$\boldsymbol{MM}^T$や$\boldsymbol{M}^T\boldsymbol{M}$は正方行列になるため、これを固有値分解するようなもの
- ここでは$\boldsymbol{ΣΣ}^T$が固有値になり、そのルート(対角線上の要素の平方根)が特異値$\boldsymbol{Σ}$になる
- 同様に$\boldsymbol{M}^T\boldsymbol{M} = \boldsymbol{VΣU}^T\boldsymbol{UΣ}^T\boldsymbol{V}^T = \boldsymbol{VΣΣ}^T\boldsymbol{V}^T$から$\boldsymbol{V}^T$が求まる
- 最終的に$\boldsymbol{M} = \boldsymbol{UΣV}^T$が得られる
- 特異値分解は、画像の圧縮や、画像の類似度の判定などに活用することができる
第2章: 微分積分
微分
- 微分の定義
- $ \dfrac{dy}{dx} = \dfrac{df(x)}{dx} $
- $ \dfrac{df(x)}{dx} = \displaystyle \lim_{ h \to 0 }\dfrac{f(x+h) - f(x)}{(x+h)-x} = \displaystyle \lim_{ h \to 0 }\dfrac{f(x+h) - f(x)}{h}$
- $x^n$の微分
- $ \dfrac{d(x^n)}{dx} = nx^{n-1} $
- 指数関数の微分
- $ \dfrac{d(a^x)}{dx} = log_{e}a・a^x $
- $a$が$e$(ネイピア数)の場合には、微分しても変化しない
- $ \dfrac{d(e^x)}{dx} = log_{e}e・e^x = e^x $
- 対数関数の微分
- $ \dfrac{d(log_{a}x)}{dx} = \dfrac{1}{log_{e}a・x} $
- $a$が$e$(ネイピア数)の場合
- $ \dfrac{d(log_{e}x)}{dx} = \dfrac{1}{log_{e}e・x} = \dfrac{1}{x}$
- 三角関数の微分
- $ \dfrac{d(\sin\theta)}{dx} = \cos\theta $
- $ \dfrac{d(\cos\theta)}{dx} = -\sin\theta $
偏微分
- 多変数関数を、特定の文字以外定数とみなして微分したもの
- 例えば、$ x^2 + xy + y + 3$を$x$で偏微分する場合は、$y$は定数として扱う
- $ \dfrac{∂}{∂x}(x^2 + xy + y + 3) = 2x + y $
- 式半ばの$xy$の$y$は$x$にかかる定数として扱われる
- 後ろの$y$も定数のため、偏微分によってなくなる(最後の$3$と同じ扱い)
- $ \dfrac{∂}{∂x}(x^2 + xy + y + 3) = 2x + y $
- 例えば、$ x^2 + xy + y + 3$を$x$で偏微分する場合は、$y$は定数として扱う
微分の線形性
- $ \dfrac{d}{dt}(aX(t) + bY(t)) = a\dfrac{d}{dt}(X(t)) + b\dfrac{d}{dt}(Y(t)) $
- 導関数は各項に分離できる(加法性)
- 関数を定数倍したら、導関数も定数倍される(斉次性)
- 和の微分は微分の和になる
- $ \dfrac{d}{dt}\displaystyle\sum_{i=1}^{n}(\cdots) = \displaystyle\sum_{i=1}^{n}\dfrac{d}{dt}(\cdots)$
微分の連鎖律(Chain rule)
- ある関数が合成関数で表される場合、その合成関数の微分は、合成関数を構成するそれぞれの関数の微分の積によって表すことができる
- 例えば、$z = (x + y)^2$をxで微分する場合
- $t = x + y$と定義すると、$z = t^2$と表される
- ここで連鎖律より、$ \dfrac{∂z}{∂x} = \dfrac{∂z}{∂t}\dfrac{∂t}{∂x} $
- $t = x + y$だから、$ \dfrac{∂t}{∂x} = 1 $
- $z = t^2$だから、$ \dfrac{∂z}{∂t} = 2t $
- 結果的に、$ \dfrac{∂z}{∂x} = \dfrac{∂z}{∂t}\dfrac{∂t}{∂x} = 2t·1 $
- $ 2t $を元に戻すと、、$ \dfrac{∂z}{∂x} = 2(x + y) $
- 連鎖律の計算は計算グラフで表現できる
- 例えば、$z = (x + y)^2$をxで微分する場合
ベクトルによる微分
- 入力ベクトルの要素毎に出力に対する偏微分を計算し、それらを並べてベクトルにしたものが勾配(Gradient)
- $ \dfrac{∂}{∂\boldsymbol{w}}(c) = \boldsymbol{0} $, $c$は定数、$\boldsymbol{0}$はゼロベクトル
- $ \dfrac{∂}{∂\boldsymbol{w}}(\boldsymbol{b}^T \boldsymbol{w} ) = \boldsymbol{b}^T $
- $ \dfrac{∂}{∂\boldsymbol{w}}(\boldsymbol{w}^T \boldsymbol{A} \boldsymbol{w} ) = \boldsymbol{w}^T(\boldsymbol{A} + \boldsymbol{A}^T) $
積分
- $ f(x) = \int f'(x)dx $
- 微分の逆
- $x^n$の積分
- $ \int nx^{n-1}dx = x^n $
- 指数関数の積分
- $ \int e^xdx = e^x $
- 対数関数の微分
- $ \int \dfrac{1}{x}dx = log_ex $
- 三角関数の微分
- $ \int (-\sin\theta)dx = \cos\theta $
第3章: 確率・統計
定義
集合
- 集合: もの(集合)の集まり
- 和集合: $ A \cup B $、共通部分: $ A \cap B $
- 絶対補: $ U \hspace{ 4pt } \backslash A = \bar{A} $、相対補: $ B \hspace{ 4pt } \backslash A $
確率
- 頻度確率: 客観頻度、発生する頻度
- ベイズ確率: 主観確率、信念の度合い
- 確率の定義
- $ P(A) = \dfrac{n(A)}{n(U)} $
- $n(A)$は事象Aが起こる数、$n(U)$は全ての事象の数
- $ 0 \leqq P(A) \leqq 1$
- $ P(A) = \dfrac{n(A)}{n(U)} $
- $ P(\bar{A}) = 1 - P(A) $
- $ P(A \cap B) = P(A)P(B|A)$
- $ P(A \cap B) = P(B \cap A) $
- $ P(A)P(B|A) = P(B)P(A|B) $
- $ P(A \cup B) = P(A) + P(B) - P(A \cap B) $
条件付き確率
- ある事象X=xが与えられた下で、Y=yとなる確率
- $ P(Y = y|X = x)= \dfrac{P(Y = y, X = x)}{P(X = x)} $
ベイズの定理(Bayes' theorem)
- $P(B)$を事象$A$が起きる前の事象$B$が起きる確率(事前確率)、$P(B \vert A)$を事象$A$が起きた後で事象$B$が起きる確率(事後確率)とした時、
- $ P(B \vert A) = \dfrac{P(A \cap B)}{P(A)} $
$ = \dfrac{P(B)·P(A \vert B)}{P(A)} $
- $ P(B \vert A) = \dfrac{P(A \cap B)}{P(A)} $
独立な事象の同時確率
- お互いの発生には因果関係のない事象X=xと事象Y=yが同時に発生する確率
- $ P(X = x, Y = y)= P(X = x)P(Y = y) $
- $ P(X = x, Y = y)= P(Y = y, X = x) $でもある
- 独立な事象の場合、(単独の)確率と、条件付き確率が変わらない
- $ P(Y = y|X = x)= \dfrac{P(Y = y, X = x)}{P(X = x)} $
- ここでXとYは独立しているので、$ \dfrac{P(Y = y, X = x)}{P(X = x)}= \dfrac{P(X = x)P(Y = y)}{P(X = x)} = P(Y = y)$
- 要はXとYは独立しているので、$Y = y$の確率は$X = x$の影響を受けない
期待値、分散、共分散
- 期待値
- 分布における確率変数の平均の値、「ありえそう」な値
- $ E(f) = \displaystyle \sum_{k=1}^n P(X = x_k)f(X = x_k) $
- 連続値の場合
- $ E(f) = \int P(X = x)f(X = x)dx $
- 分散
- データの散らばり具合
- 期待値からの差分の重み付き2乗和
- $ Var(f) = E((f_{(X=x)} - E_{(f)})^2) $
$ = E(f_{(X=x)}^2) - (E_{(f)})^2 $ - 別の表記($μ$は期待値)
- $ V(X) = \displaystyle \sum_{i=1}^n (x_i - μ)^2p_i $
- $ V(X) = E(X^2) - (E(X))^2 $としても計算できる
- 共分散
- 2つのデータ系列の傾向の違い
- 正の値を取れば似た傾向
- 負の値を取れば逆の傾向
- ゼロであれば関係性がない
- $ Cov(f, g) = E((f_{(X=x)} - E(f))(g_{(Y=y)} - E(g))) $
$ = E(fg) - E(f)E(g) $ - 別の表記($μ_x, μ_y$はそれぞれの期待値)
- $ Cov(X, Y) = E\lbrack (X - μ_x)(Y - μ_y) \rbrack $
= $ E(XY) - μ_xμ_y $
- $ Cov(X, Y) = E\lbrack (X - μ_x)(Y - μ_y) \rbrack $
- 2つのデータ系列の傾向の違い
- 標準偏差
- 分散は2乗されているため、元の分布と単位が異なる
- 分散の平方根を取ることによって、元の単位に戻す
- $ σ = \sqrt{Var(f)} $
$ = \sqrt{E((f_{(X=x)} - E_{(f)})^2)} $ - 別の表記
- $ σ = \sqrt{\displaystyle \sum_{i=1}^n (x_i - μ)^2p_i} $
様々な確率分布
-
ベルヌーイ分布
- コインを1回トスするイメージ
- 表と裏で出る割合が等しくなくても扱える
- $ P(x \vert p) = p^x(1 - p)^{1-x} $
- $x = 1 or 0$
- $p$は$ x = 1 $の確率
- 期待値$E(X) = p $
- 分散$V(X) = p(1-p) $
-
マルチヌーイ(カテゴリカル)分布
- サイコロを1回転がすイメージ
- 各面の出る割合が等しくなくても扱える
- $ P(x_j \vert p_j) = \displaystyle \prod_{j=1}^kp_j^{x_j} $
- $x_j = 1 or 0$
- $\boldsymbol{x}$はone-hotベクトル(1つだけ1)
- $p_j$は$ x_j = 1 $の確率
- $ \displaystyle \sum_{j=1}^kp_j = 1 $
- $x_j = 1 or 0$
-
二項分布
- ベルヌーイ分布の多試行版
- $ P(x \vert p, N) = _NC_x p^x(1 - p)^{N-x} $
$ = \dfrac{N!}{(N-x)!x!}p^x(1 - p)^{N-x} $- $N$は試行回数
- $p$は$ x = 1 $の確率
-
多項分布
- マルチヌーイ(カテゴリカル)分布の多試行板
- $ P(x_j \vert p_j) = N!\displaystyle \prod_{j=1}^k\dfrac{p_j^{x_j}}{x_j!} $
- $ \displaystyle \sum_{j=1}^kx_j = N $
- $ \displaystyle \sum_{j=1}^kp_j = 1 $
-
ガウス分布(正規分布)
- 釣鐘型の連続分布
- $ N(x; μ, σ^2) = \sqrt{\dfrac{1}{2πσ^2}} exp(-\dfrac{1}{2σ^2}(x - μ)^2)$
- 平均$μ$、分散$σ^2$
- $N(μ, σ^2)$と表現する、$N(0,1)$は標準正規分布
- 全てを足し合わせると1になる
- $ x = μ $で最大値となる
- $ x = μ \pm σ $に変曲点が生じる
第4章: 情報理論
自己エントロピーとシャノンエントロピー
- 自己エントロピー(自己情報量)
- 事象を観測したときに得る情報量は,その事象が起きる確率が低い(=珍しい)ほど大きい
- $ I(x) = -log(P(x)) = log(W(x)) $
- $I$は、確率$p$で起こる事象を観測したときに得られる自己情報量
- 対数の底が2のとき、単位はbit
- 対数の底が$e$(ネイピア数)の時、単位はnat
- 例
- 表が出る確率が1/2のコインを投げて表が出た: $ -log_2\dfrac{1}{2} = 1 bit $
- 確率0.000002で1億円当たる宝くじで1億円を当てた: $ -log_20.000002 \approx 19.9 bit $
- 情報量では$log$を使っているため。複数事象の同時確率は足し算で表すことができる
- シャノンエントロピー(平均情報量)
- 自己情報量の期待値
- 情報源がどれだけ情報を出しているかの指標
- $ H(x) = E(I(x)) $
$ = -E(log(Px)) $
$ = -\sum(P(x)log(P(x)))) $ - 例
- 表が出る確率が$p$(=裏が出る確率は$1-p$)のコインを投げた表裏の平均情報量:
- $ -plog_2p - (1-p)log_2(1-p) $
- 上記は$log_2$なので単位はbit
- 自己情報量の期待値
交差エントロピーとカルバック・ライブラー ダイバージェンス
- 交差エントロピー
- 二つの確率分布$P,Q$がどれぐらい離れているかを表す指標
- 二つの確率分布が似ているほど小さな値となる
- $ H(P,Q) = - \sum(P(x)log(Q(x))) $
- $P$が真の分布(正解データ)で、$Q$がモデルの分布(推論したデータ)
- シャノンエントロピーの後半が$Q$になっている
- $Q$についての自己情報量を$P$の分布で平均している
- $P$の分布の確率密度関数が密な領域に対する誤りに着目している、つまり、真の分布で密な領域がモデルの分布でも密になることを期待している
- 分類問題を解くための損失関数として使われる
- 二つの確率分布$P,Q$がどれぐらい離れているかを表す指標
- カルバック・ライブラー ダイバージェンス
- 同じ事象・確率変数における異なる確率分布$P,Q$の違いを表す
- 二つの確率分布の違いを数量化したもの
- ある確率分布$Q$がターゲットの確率分布$P$をどのくらい忠実に近似しているかを数値として表す
- $ D_{KL}(P \vert \vert Q) = \sum(P(x)log\dfrac{P(x)}{Q(x)})) $
$ = \sum(P(x)log(P(x)) - P(x)log(Q(x))) $
$ = -\sum(P(x)log(Q(x))) - (-\sum( P(x)log(P(x)) $- $P$と$Q$の交差エントロピー$H(P,Q)$から$P(x)$のエントロピー$H(P)$を引いている
- 確率分布$P(x)$をベースとしたとき、$Q(x)$はどれだけエントロピーがあるかを示す
- $P = Q$の場合には$ D_{KL}(P \vert \vert Q) = 0 $
- なお、 $ D_{KL}(P \vert \vert Q) \neq D_{KL}(Q \vert \vert P) $であることに注意
- 同じ事象・確率変数における異なる確率分布$P,Q$の違いを表す
参考文献
- ディープラーニング入門 Chainer チュートリアル
- ディープラーニングE資格エンジニア問題集