1. はじめに
本記事はJDLA E資格の認定プログラム「ラビットチャレンジ」における応用数学のレポート記事である。
本記事では以下の3つの科目について、要点をまとめている。
- 線形代数
- 確率・統計
- 情報理論
2. 線形代数
2.1. 行列・単位行列
2.1.1 行列とは
行列とは「数値などを横方向、縦方向に矩形状にならべたもの」であり、横方向を「行」、縦方向を「列」と呼ぶ。
- 2行2列の行列
$ \quad A = \begin{pmatrix} a & b \\ c & d \end{pmatrix} $
- $m$行$n$列の行列
$ \quad A = \begin{pmatrix}
a_{11} & a_{12} & \ldots & a_{1n} \\
a_{21} & a_{22} & \ldots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \ldots & a_{mn}
\end{pmatrix}
$
2.1.2 単位行列とは
単位行列とは「任意の正方行列$A$に対して以下のようになる」行列$I$をさす。
$ \quad IA = AI = A $
$ \qquad A$:任意の正方行列
$ \qquad I$:単位行列
単位行列$I$は以下のような値をもつ正方行列である。
$ \quad I = \begin{pmatrix}
1 & 0 & \ldots & 0 \\
0 & 1 & \ldots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \ldots & 1
\end{pmatrix} $
2.2. 逆行列
2.2.1 逆行列とは
行列において「数における逆数」のような関係となる行列
$ \quad AA^{-1} = A^{-1}A = I $
$ \qquad A$:行列
$ \qquad A^{-1}$:行列Aの逆行列
$ \qquad I$:単位行列
2.2.2 逆行列が存在しない場合
行列$A$が以下のような場合、逆行列は存在しない。
$ \quad A = \begin{pmatrix} a & b \\ c & d \end{pmatrix} $
$ \quad $ において $ a:b = c:d $ となる場合、
$ \quad a:b = c:d \quad $ より、$ \quad ad = bc \quad$ 転じて $ \quad ad-bc = 0 \quad $ である場合、逆行列が存在しない。
上記より行列が以下のような場合に限り、逆行列があるともいえる。
$ \quad A = \begin{pmatrix} a & b \\ c & d \end{pmatrix} $
$ \quad $ において $ ad -bc \neq 0 $ となる場合
2.2.3 逆行列の求め方(ガウスの掃き出し法)
逆行列の求め方のひとつにガウスの掃き出し法がある。
$ ad -bc \neq 0 $ である行列 $A = \begin{pmatrix} a & b \\ c & d \end{pmatrix} $ の逆行列を求めたいとき、以下のような拡大行列を用いて考える。
$ \quad \begin{pmatrix} \begin{array}{cc|cc} a & b & 1 & 0 \\ c & d & 1 & 0 \end{array} \end{pmatrix} $
このとき、以下のみっつの方法を用いて、拡大行列のうち左側の行列が単位行列になるよう計算を行うと、
右側の行列に逆行列が表される。
- 拡大行列のうち、$i$行目の各値を左右ともに$x$倍する。
- 拡大行列のうち、$i$行目の各値を左右ともに$x$倍したものを、$j$行目の対応する各値に足し合わせる。
- $i$行目と$j$行目を入れ替える
2.3. 行列式
2.3.1. 行列式とは
行列式とは「ひとつの正方行列において定まるひとつの値」を指し、以下のようにあらわす。
- 2行2列の行列式
$ \quad \begin{vmatrix}A\end{vmatrix} = \begin{vmatrix} a & b \\ c & d \end{vmatrix} $
- 3行3列の行列式
$ \quad \begin{vmatrix}A\end{vmatrix} =
\begin{vmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{vmatrix} $
2.3.2. 行列式の求め方
行列式は以下のように求めることができる。
- 2行2列の行列式
$ \quad \begin{vmatrix}A\end{vmatrix} = \begin{vmatrix} a & b \\ c & d \end{vmatrix} = ad - bc $
- 3行3列の行列式
$ \quad \begin{vmatrix}A\end{vmatrix} =
\begin{vmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{vmatrix}
= a_{11} \begin{vmatrix} a_{22} & a_{23} \\ a_{32} & a_{33} \end{vmatrix}
- a_{21} \begin{vmatrix} a_{12} & a_{13} \\ a_{32} & a_{33} \end{vmatrix}
- a_{31} \begin{vmatrix} a_{12} & a_{13} \\ a_{22} & a_{23} \end{vmatrix} \\
\qquad
= a_{11}(a_{22}a_{33} - a_{23}a_{32})
- a_{12}(a_{21}a_{33} - a_{23}a_{31})
- a_{13}(a_{21}a_{32} - a_{22}a_{31}) \\
\qquad
= (a_{11}a_{22}a_{33} - a_{11}a_{23}a_{32})
- (a_{12}a_{21}a_{33} - a_{12}a_{23}a_{31})
- (a_{13}a_{21}a_{32} - a_{13}a_{22}a_{31}) \\
\qquad
= a_{11}a_{22}a_{33} + a_{12}a_{23}a_{31} + a_{13}a_{21}a_{32}
- a_{11}a_{23}a_{32} - a_{12}a_{21}a_{33} - a_{13}a_{22}a_{31}$
2.4. 固有値
2.4.1. 固有値とは
固有値は「正方行列$ A $」「$ \vec{0} $ でないベクトル $ \vec{x} $」「スカラー$ \lambda $」において以下の数式が成立する際に求められる。
$ \quad A\vec{x} = \lambda\vec{x} $
$ \qquad A$:正方行列
$ \qquad \vec{x}$:Aの固有ベクトル
$ \qquad \lambda$:Aの固有値
このとき固有値は一意に定まるが、固有ベクトル$ \vec{x} = \begin{pmatrix} x_{1} \\ x_{2} \end{pmatrix} $ は $ x_{1} : x_{2} $ の比が維持されていれば大きさは任意。
つまり固有ベクトル$ \vec{x} $ は 「$ \begin{pmatrix} x_{1} \\ x_{2} \end{pmatrix} $ の定数倍」と表現できる。
2.4.2. 固有値の求め方
固有値・固有ベクトルは、まず固有値を算出し、その後固有ベクトルを求める、という流れで行う。
- $ \quad \lambda\vec{x} = \lambda I\vec{x} $
- $ \quad A\vec{x} - \lambda I\vec{x} = (A - \lambda I)\vec{x} = \vec{0} $
このとき、 $ \vec{x} \neq \vec{0} $ より $ \begin{vmatrix}A - \lambda I \end{vmatrix} = 0 $ である
2.5. 固有値分解
2.5.1. 固有値分解とは
固有値分解は正方行列を複数の行列の乗算にする分解方法である。
まず、ある行列Aにおいて固有値 $ \lambda $ および固有ベクトル $ \vec{x} $ を以下のように定義する。
$ \quad \Lambda = \begin{pmatrix}
\lambda_{1} & 0 & \ldots & 0 \\
0 & \lambda_{2} & \ldots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \ldots & \lambda_{n}
\end{pmatrix} $
$ \quad \vec{v} = \begin{pmatrix} \vec{v_{1}} & \vec{v_{2}} & \ldots & \vec{v_{n}} \end{pmatrix} $
このとき、$ A\vec{x} = \lambda\vec{x} $ より、以下のような数式が成立する。
$ \quad AV = V \Lambda $
これの両辺に $ V^{-1} $ をかけると
$ \quad AVV^{-1} = V \Lambda V^{-1} $
転じて
$ \quad A = V \Lambda V^{-1} $
2.5.2. 固有値分解の方法
固有値分解は以下のような方法で行うことができる。
- 行列$A$の固有値$ \Lambda $を求める
- 行列$A$および行列$A$の固有値$ \Lambda $から固有ベクトル$V$を求める
- 固有ベクトル$V$の逆行列$V^{-1}$を求める
2.5.3. 固有値分解の利点
複数の行列において、それぞれを固有値分解してみると類似している点が見えてくる場合がある。
また、同じ行列を何度もかける場合に計算が簡単になる。
2.6. 特異値分解
2.6.1. 特異値分解とは
特異値分解は長方形の行列における固有値分解のような分解方法である。
$ \quad MV = US$
$ \quad M = USV^{T} $
$ \quad M^{T}U = VS^{T} $
$ \quad M^{T} = VS^{T}U^{T} $
$ \qquad M, S$:長方行列(一般行列)
$ \qquad M^{T}, S^{T}$:$M, S$の転置
$ \qquad U, V$:直交行列
$ \qquad U^{T}, V^{T}$:$U, V$の転置
$ \quad$直交行列の性質:転置した行列$U^{T}, V^{T}$が逆行列$U^{-1}, V^{-1}$と同様の動きになる
$ \qquad UU^{T} = U^{T}U = I, \quad VV^{T} = V^{T}V = I$
2.6.2. 特異値分解の方法
前提
$ \quad M = USV^{T} $
$ \quad M^{T} = VS^{T}U^{T} $
より
$ \quad MM^{T} = USV^{T}VS^{T}U^{T} = US(V^{T}V)S^{T}U^{T} = USIS^{T}U^{T} = USS^{T}U^{T} $
$ \quad M^{T}M = VS^{T}U^{T}USV^{T} = VS^{T}(U^{T}U)SV^{T} = VS^{T}ISV^{T} = VS^{T}SV^{T} $
$ \quad $長方行列の性質:転置した行列とかけあわせると正方行列になる
$ \qquad $→$MM^{T},M^{T}M$は正方行列
特異値分解は以下のような方法で行うことができる。
1.正方行列$MM^{T}$において固有値分解する。
・固有値分解の公式「$ A = V \Lambda V^{-1} $」に照らし合わせると「$ A = MM^{T}$, $V = U$, $\Lambda = SS^{T}$, $V^{-1} = U^{T}$」
$V^{-1} = U^{T}$とできる理由:$U$は直交行列のため
2.正方行列$M^{T}M$において固有値分解する。
・固有値分解の公式「$ A = V \Lambda V^{-1} $」に照らし合わせると「$ A = M^{T}M$, $V = V$, $\Lambda = S^{T}S$, $V^{-1} = V^{T}$」
$V^{-1} = V^{T}$とできる理由:$V$は直交行列のため
3.$ M = USV^{T} $の$U, S, V^{T}$に関して、「2.」より$U$、「3.」より$V^{T}$、「2.」「3.」の$SS^{T},S^{T}S$より$S$がわかる
3. 確率・統計
3.1. 集合
3.1.1. 定義
・要素
ひとつの物事。同一のものがなく、それぞれを明確に区別できる。
・集合
要素の集まり
集合$S$に要素$a$が含まれる場合、$ a \in S, S \ni a $
集合$S$に集合$M$が含まれる場合、$ M \subset S, S \supset M $
・和集合
集合$A, B$のとき、$A,B$のいずれかに含まれている要素の集合
$ \quad A \cup B $
・共通部分
集合$A, B$のとき、$A,B$のいずれにも含まれている要素の集合
$ \quad A \cap B $
・絶対補
集合$A$, 全体集合$U$のとき、$U$のうち$A$に含まれていない要素の集合
$ \quad U \cap \bar{A} = \bar{A} $
・相対補
集合$A, B$のとき、$B$のうち$A$に含まれていない要素の集合
$ \quad B \cap \bar{A} $
3.2. 確率
3.2.1. 頻度確率(客観確率)
発生する頻度。全数を把握したうえで導出する確率。
3.2.2. ベイズ確率(主観確率)
信念の度合い。全数を把握できないものに対して、さまざまな条件を用いて主観的に観測、算出するもの。
3.2.3. 条件付確率
事象$A, B$のとき、
$ \quad P(A \mid B) = P(A \cap B) / P(B) = n(A \cap B) / n(B)$
$ \qquad P(A \mid B)$:条件付確率「事象$B$に含まれている」という条件下で「事象$A$に含まれる」事象が発生する確率
$ \qquad P(A \cap B)$:$A$と$B$が同時に発生する確率
$ \qquad P(B)$:$B$が発生する確率
$ \quad P(Y=y \mid X=x) = P(Y=y, X=x) / P(X=x)$
$ \qquad P(Y=y \mid X=x)$:条件付確率
$ \qquad P(Y=y, X=x)$:同時確率
$ \qquad P(X=x)$:$X=x$のときの確率
3.2.4. 独立している事象の同時確率
事象A,Bがお互いに独立している(因果関係がない)場合の同時確率
$ \quad P(A \cap B) = P(A)P(B)$
$ \qquad P(A \cap B)$:$A$と$B$が同時に発生する確率
$ \qquad P(A)$:$B$が発生する確率
$ \qquad P(B)$:$B$が発生する確率
$ \quad P(X=x, Y=y) = P(Y=y, X=x) = P(X=x)P(Y=y) = P(Y=y)P(X=x)$
$ \qquad P(X=x, Y=y), P(Y=y, X=x)$:$X=x$かつ$Y=y$のときの確率
$ \qquad P(X=x)$:$X=x$のときの確率
$ \qquad P(Y=y)$:$Y=y$のときの確率
3.2.5. 事象のいずれかが発生する確率
事象A, Bに重なっている部分がある場合
$ \quad P(A \cup B) = P(A) + P(B) - P(A \cap B)$
→事象$A, B$両方に$A \cap B$が含まれており二重に数えているため、$A \cap B$ひとつぶん差し引かなければならない
事象$A, B$が独立している(重なっていない)場合
$ \quad P(A \cup B) = P(A) + P(B)$
3.2.6. ベイズ則(ベイズの定理)
ベイズ則の公式
$P(A)P(B \mid A) = P(B)P(A \mid B)$
$ \quad P(A)$:事象$A$の発生する確率
$ \quad P(B \mid A)$:事象$A$という条件下で事象$B$が発生する確率
$ \quad P(B)$:事象$B$の発生する確率
$ \quad P(A \mid B)$:事象$B$という条件下で事象$A$が発生する確率
$P(A \mid B)$と$P(A \mid B)$の入れ替えがベイズ則を用いることで可能になる
3.3. 統計
3.3.1. 統計における定義
・事象、確率変数
事象:物事、確率変数:事象に結びついた数値
例:
コインを4回投げた場合、表が出た回数=事象、確率変数
→表が4回出た=事象
→4=確率変数
・確率分布
各事象の発生する確率の分布
3.3.2. 記述統計
母集団の性質を要約して記述するための統計。
データがすべて揃っている、観測できることが条件。全数調査。
3.3.3. 推測統計
母集団から標本(サンプル)を抽出し、それを使用して母集団の性質を推測する統計。
データが膨大過ぎる場合や全データが取得できない場合に用いる。抜き取り調査。
3.3.4. 期待値
期待値→平均の値 「『各確率変数』に『その確率変数のでる確率』をかけた数」の合計
$ E(f)= \sum_{k=1}^{n}(P(X=x_{k})f(X=x_{k})$:離散値における確率変数$f(X=x)$の期待値
$ E(f)= \int(P(X=x)f(X=x)dx$:連続値における確率変数$f(X=x)$の期待値
$ \quad X$:事象($x_{1}, x_{2}, \ldots , x_{n}$)
$ \quad f(X=x)$:事象$x$の確率変数
$ \quad P(X=x)$:事象$x$の発生する確率
3.3.5. 分散
分散:データの散らばり具合
$Var(f) = E((f(X=x) - E(f))^{2})$:分散。各確率変数の、期待値からの離れ具合の平均値
$f(X=x)$:事象$X$内の$x$における確率変数
$E(f)$:事象$X$の確率変数$f$における期待値
3.3.6. 標準偏差
標準偏差:分散の1/2乗(平方根をとったもの)
分散の問題点:2乗しているため、元のデータと単位が異なる
→同じ単位で散らばり具合を知るために2乗の逆演算(1/2乗)をする=平方根をとる
=標準偏差:1/2乗しただけなのでこれでも散らばり具合がわかる
3.3.5. 共分散
$Cov(f) = E((f(X=x)-E(f))(g(Y=y)-E(g)))$:共分散。2系列のデータの傾向のちがい
$ \quad f$:事象$X$内の$x$における確率変数
$ \quad E(f)$:事象$X$における確率変数の期待値
$ \quad g$:事象$Y$内の$y$における確率変数
$ \quad E(g)$:事象$Y$における確率変数の期待値
傾向の判断
正の値=似た傾向
負の値=逆の傾向
0に近い=関連性が低い
3.3.7. 主な確率分布
・ベルヌーイ分布
コイントスのように事象が2つに分類される場合の確率分布。各分類の確率が均等でなくても使用できる。
$P(x \mid μ) = (μ^{x})(1 - μ)^{1-x}$:ベルヌーイ分布
$ \quad x$:期待した事象が発生したどうか(期待する事象:$x=1$,異なった場合:$x=0$)
$ \quad \mu$:期待した事象の発生する確率
確率は$x=1$のとき$P=\mu$,$x=0$のとき$P=1-\mu$
・マルチヌーイ分布(カテゴリカル分布)
サイコロを転がすように事象が複数に分類される場合の確率分布。ベルヌーイ分布の多分類版のようなもの。
ベルヌーイ分布と同様、確率が均等でなくても使用することができる。
関数として記述するときは、ある値が出た場合にその確率変数に関する項以外が総て0乗になる特殊な関数になる。
→しかし、それは単なる場合分けと変わらないため数式で扱う必要性が低い。実際のプログラミングでも場合分けで記述する。
・二項分布
ベルヌーイ分布の多試行版
$ P(x \mid \lambda, n) = \dfrac{n!}{x!(n - x)!} \lambda^{x}(1 - \lambda)^{n-x} $:n回試行したとき。確率が$ \lambda$の期待する事象がx回発生する確率
$ \quad \dfrac{n!}{x!(n - x)!}$:二項係数。組み合わせのかたちで表すと${}_nC_x$
$ \quad n$:全試行回数
$ \quad x$:期待する事象の発生する回数
$ \quad \lambda$:期待する事象のでる確率
二項係数より二項分布は$x=n-x$の時が最大となり、グラフは真ん中が大きな山型グラフになる
・ガウス分布
$ N(x; \mu, \sigma^{2}) = \sqrt{\dfrac{1}{2\pi\sigma^{2}}}\exp\biggl(-\dfrac{1}{2\sigma^{2}}(x - \mu)^{2}\biggr) $:ガウス分布
$ \quad x$:事象$X$のうちのひとつの確率変数
$ \quad \mu$:事象$X$の確率変数の期待値
$ \quad \sigma^{2}$:事象$X$の確率変数の分散
3.3. 推定
3.3.1. 推定
母集団:調査対象の全データ
母数:母集団を特徴づける数値(平均値など)→母集団のデータ数ではない
3.3.2. 点推定
平均値などをひとつの値に推定すること。
3.3.3. 区間推定
平均値などが存在する範囲(信頼区間)を推定すること
3.3.4. 推定量・推定値
推定量Estimator
:パラメータを推定するために利用する計算方法・計算式。推定関数ともいう。
推定値Estimate
:実際に施行した結果から計算した値
微分の導関数→推定量
導関数において変数を定めた結果(傾き)→推定値
3.3.5. 点推定で推定する値
真値$\theta$ 推定値$\hat{\theta}$ 推定量$\hat{\theta}(x)$
(ただし推定量も$\hat{\theta}$になっている場合もあるので注意)
・標本平均
点推定の代表的なもののひとつ。全数から平均をとることが困難な場合に、母集団から標本を抽出して平均をとる方法
一致性、不偏性をもつ。
$E(\hat{\theta})$:標本平均
$ \quad \hat{\theta}$:推定値
一致性:サンプル数が大きくなれば母集団の値に近づく性質
不偏性:サンプル数に関わらず、取得できる推定値の期待値が母集団の母数と同様の性質
・標本分散
$ \hat{\sigma}^2 = \dfrac{1}{n}\Sigma_{i=1}^{n}(x_{i} - \bar{x})^2$
$ \quad \hat{\sigma}^2$:標本分散
$ \quad n$:サンプル数
$ \quad x_{i}:サンプルのうち$i$番目の標本の値
$ \quad \bar{x}:標本平均
標本分散の問題点:一致性は満たすが、不偏性は満たさない
ばらつき具合はサンプル数に依存する。標本分散の値は母分散の値よりも小さくなる。
サンプル数がある程度多ければ違いは微小になるがサンプル数が少ないと偏りが出てしまう。
・不偏分散
$ \hat{\sigma}^2 = \dfrac{1}{n-1}\Sigma_{i=1}^{n}(x_{i} - \bar{x})^2$
$ \quad \hat{\sigma}^2$:標本分散
$ \quad n$:サンプル数
$ \quad x_{i}:サンプルのうち$i$番目の標本の値
$ \quad \bar{x}:標本平均
・不偏分散の思想
$n$個のサンプルがあるように見えて$n$個サンプルがあるわけではないという考え方
なぜか:
先に平均値を決めており$x_{i}$は平均値に拘束されている。
→標本分散において、$x_{1}~x_{n-1}$まで計算すると$x_{n}$は平均値によって固定されてしまう。
自由に決められるのは$n-1$個→$n-1$個で平均をとるべきではないか。
4. 情報理論(情報科学)
4.1. 自己情報量
情報の珍しさは確率$P(x)$で表される。情報が珍しいというのは情報量は大きいことを示す。
→つまり$W(x)$と$P(x)$は逆数の関係→$ W(x) = \dfrac{1}{P(x)} $と考えることができる
$I(x) = \log(W(x)) = \log\biggl(\dfrac{1}{P(x)}\biggr) = \log(P(x))^{-1} = -\log(P(x))$
$ \quad P(x)$:確率
$ \quad x$:ある事象
$ \quad W(x)$:ある事象$x$のときの情報量を表したもの
$ \quad \log(W(x))$:ある事象$x$のときの情報量の多さを対数で表したもの
単位:対数の底が2のときbit(s)、対数の底がeのときnat(s)
4.2. シャノンエントロピ―
自己情報量の期待値→事象$x$の情報の珍しさの平均値
$H(x) = E(I(x)) = -E(\log(P(x)))$
平均値の公式:$E(f) = \sum(P(x)f(x))$ より$E(I(x)) = E(\log(P(x))) = Σ(P(x)log(P(x)))$
よって$H(x) = -Σ(P(x)log(P(x)))$
4.3. カルバック・ライブラー ダイバージェンス
同じ事象・同じ確率変数において発生した異なる確率分布$P, Q$の違いを表現したもの
→確率分布$Q$と想定していたが、実際には確率分布$P$となった場合、その違いがどれくらいかをみる
同じ事象・同じ確率変数で確率分布が異なる=各確率変数をとる比率が異なる=期待値に影響する
$D_{KL}(P \mid\mid Q) = E_{x\sim{P}}\begin{bmatrix}\log\dfrac{P(x)}{Q(x)}\end{bmatrix}$
$\log\dfrac{P(x)}{Q(x)} = \log(P(x)) - \log(Q(x)) = -(-log(P(x))) + (-log(Q(x))) = -I_{P}(x) + I_{Q}(x) = I_{Q}(x) -I_{P}(x)$
上記より
$D_{KL}(P \mid\mid Q) = E_{x\sim{P}}(I_{Q}(x) -I_{P}(x))$
$ \quad I(x)$:自己情報量→$x$の情報の珍しさ
$ \qquad I_{Q}(x)$:想定していた珍しさ
$ \qquad I_{P}(x)$:判明した珍しさ
$ E_{x\sim{P}}$の意味
平均値の公式:$E(f) = \sum(P(x)f(x))$ において、
確率変数に「$x$」、確率分布に「想定していた確率分布$Q$」ではなく「判明した確率分布$P$」を使用することを示している。
4.4. 交差エントロピー
カルバック・ライブラー ダイバージェンスの一部を取り出したもの
$H(P,Q) = H(P)+D_{KL}(P \mid\mid Q)$
$ \quad H(P, Q)$:交差エントロピー
$ \quad P$:事前に想定した確率分布
$ \quad Q$:実際に発生した確率分布
$ \quad H(P)$:シャノンエントロピ―
$ \quad D_{KL}(P \mid\mid Q)$:カルバック・ライブラー ダイバージェンス
4.5. 交差エントロピーとカルバック・ライブラー ダイバージェンス、シャノンエントロピーの関係
改めてカルバック・ライブラー ダイバージェンスを確認する
カルバック・ライブラー ダイバージェンス:
$ D_{KL}(P \mid\mid Q) = \Sigma P(x)(\log(P(x)) - \log)Q(x))) = \Sigma P(x)(-(-log(P(x))) +(-log(Q(x))))$
$ \quad = \Sigma P(x)(-I_{P}(x) + I_{Q}(x)) = \Sigma P(x)I_{Q}(x) - \Sigma P(x)I_{P}(x)$
また、
シャノンエントロピー:$H(P) = \Sigma P(x)I_{P}(x)$
交差エントロピー:$H(P, Q) = \Sigma P(x)I_{Q}(x)$
つまり、$D_{KL}(P \mid\mid Q) = H(P,Q)-H(P)$
転じて、$H(P,Q) = H(P)+D_{KL}(P \mid\mid Q)$と、交差エントロピーの公式が求められる。