ラビットチャレンジ
ラビットチャレンジはE資格の受験に必要な協会認定講座のプログラムです。
ラビットチャレンジでは認定プログラムを修了してE資格の受験資格を習得するために、指定のレポートとテストで合格点を取得しなければなりません。
今回はStage1応用数学についてまとめます。
- Stage1 応用数学
- Stage2 機械学習
- stage3 深層学習前編(day1, day2)
- stage4 深層学習後編(day3, day4)
第1章 線形代数
1.1 スカラー、ベクトル、行列
スカラー
一般的に表される数で大きさを表します。
1, 2, 3, 4, …
ベクトル
大きさと向きを持ち矢印で表されます。
つまり、スカラーに向きを持たせたものです。
\vec{x}, \vec{y}
行列
スカラーを表にしたものです。
横の数字の集まりを「行」、縦の数字の集まりを「列」と呼びます。
\begin{pmatrix} a & b \\ c & d \end{pmatrix}
1.2 行列とベクトルの積
A = \begin{pmatrix} a & b \\ c & d \end{pmatrix}
\begin{pmatrix} e \\ f \end{pmatrix} = \begin{pmatrix} a \times e + b \times f \\ c \times e + d \times f \end{pmatrix}
・例1)
A = \begin{pmatrix} 6 & 4 \\ 3 & 5 \end{pmatrix}
\begin{pmatrix} 1 \\ 2 \end{pmatrix} =
\begin{pmatrix} 6 \times 1 + 4 \times 2 \\ 3 \times 1 + 2 \times 5 \end{pmatrix} \\ =
\begin{pmatrix} 6 + 8 \\ 3 + 10 \end{pmatrix} = \begin{pmatrix} 14 \\ 13 \end{pmatrix}
・例2)
A = \begin{pmatrix} 2 & 1 \\ 4 & 1 \end{pmatrix}
\begin{pmatrix} 1 & 3 \\ 3 & 1 \end{pmatrix} = \begin{pmatrix} 2 \times 1 + 1 \times 3 & 2 \times 3 + 1 \times 1 \\ 4 \times 1 + 1 \times 3 & 4 \times 3 + 1 \times 1 \end{pmatrix} =
\begin{pmatrix} 5 & 7 \\ 7 & 13 \end{pmatrix}
1.3 行基本変形
連立1次方程式と行列
\left\{\begin{matrix}x_1 + 4x_2 = 7 \\ 2x_1 + 6x_2 = 10\end{matrix}\right.\\
①2行目を1/2倍する
\left\{\begin{matrix}x_1 + 4x_2 = 7 \\ x_1 + 3x_2 = 5\end{matrix}\right.\\
②1行目に2行目の-1倍を加える
\left\{\begin{matrix} x_2 = 2 \\ x_1 + 3x_2 = 5\end{matrix}\right.\\
③2行目に1行目の-3倍を加える
\left\{\begin{matrix} x_2 = 2 \\ x_1 = -1\end{matrix}\right.\\
行列だと
\begin{pmatrix} 1 & 4 \\ 2 & 6 \end{pmatrix}
\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} =\begin{pmatrix} 7 \\ 10 \end{pmatrix}
①2行目を1/2倍する
\begin{pmatrix} 1 & 4 \\ 1 & 3 \end{pmatrix}
\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} 7 \\ 5 \end{pmatrix}
②1行目に2行目の-1倍を加える
\begin{pmatrix} 0 & 1 \\ 1 & 3 \end{pmatrix}
\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \begin{pmatrix} 2 \\ 5 \end{pmatrix}
③2行目に1行目の-3倍を加える
\begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}
\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \begin{pmatrix} 2 \\ -1 \end{pmatrix}
①②③のように式を変形していく方法を行基本変形といいます。
他にも3行の行列などで1行目と2行目を入れ替えるなどが行えます。
1.4 単位行列
かけても、かけられても相手が変化しない行列を単位行列といいます。
\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}
\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}
\begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}
単位行列は対角に1が並び、他は全て0になっています。
I = \begin{pmatrix} 1 & & \\ & 1 & \\ & & \ddots \end{pmatrix}
1.5 逆行列
かけても、かけられても単位行列となる行列をAの逆行列といい、$A^{-1}$と表します。
AA^{-1} = A^{-1}A = I
例)
\begin{pmatrix} 1 & 1 \\ 1 & -1/2 \end{pmatrix} \begin{pmatrix} 1/3 & 2/3 \\ 2/3 & -2/3 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix}
1.6 逆行列の求め方 - 掃き出し法
行列Aに対して単位行列をつけ、行基本変形を行う
例) 次の行列の逆行列を求める
\begin{pmatrix} 4 & 7 \\ 1 & 2 \end{pmatrix}
① 右側に単位行列をつける
\left(\begin{array}{cc|cc} 4 & 7 & 1 & 0\\1 & 2 & 0 & 1 \end{array} \right)
② 1行目に2行目の-4倍を加える
\left(\begin{array}{cc|cc} 0 & -1 & 1 & -4 \\ 1 & 2 & 0 & 1 \end{array} \right)
③ 2行目に1行目の2倍を加える
\left(\begin{array}{cc|cc} 0 & -1 & 1 & -4 \\ 1 & 0 & 2 & -7 \end{array} \right)
④ 1行目を-1倍する
\left(\begin{array}{cc|cc} 0 & 1 & -1 & 4 \\ 1 & 0 & 2 & -7 \end{array} \right)
⑤ 1行目と2行目を入れ替える
\left(\begin{array}{cc|cc} 1 & 0 & 2 & -7 \\ 0 & 1 & -1 & 4 \end{array} \right)
⑥ 左側の単位行列を除くと逆列になる
\begin{pmatrix} 4 & 7 \\ 1 & 2 \end{pmatrix} ^{-1} = \begin{pmatrix} 2 & -7 \\ -1 & 4 \end{pmatrix}
1.7 逆行列が存在しない条件
逆数が存在しない数があるように逆行列が存在しない行列もあります。
\begin{pmatrix} a & b \\ c & d \end{pmatrix}
という行列があったときに
・$a:b ≠ c:d$の場合に逆行列をもつ
・$a:b = c:d$の場合に逆行列を持たない
$ad = bc$
$ad - bc = 0$
1.8 行列式
行列の特徴を表す式の一つでスカラーで表します。
逆行列を求めるときに使用します。
行列式の値から逆行列が存在するのかどうかを確認することができます。
例)
\begin{vmatrix} a & b \\ c & d \end{vmatrix} = ad - bc
\begin{vmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33} \end{vmatrix} = a_{11} \begin{vmatrix} a_{22} & a_{23} \\ a_{32} & a_{33} \end{vmatrix} - a_{21} \begin{vmatrix} a_{12} & a_{13} \\ a_{32} & a_{33} \end{vmatrix} + a_{31} \begin{vmatrix} a_{12} & a_{13} \\ a_{22} & a_{23} \end{vmatrix}
1.9 固有値と固有ベクトル
ある行列$A$に対して、以下のような式が成り立つ特殊なベクトル$\vec{x}$と右辺の係数$\lambda$があります。
A\vec{x} = \lambda\vec{x}
行列$A$とその特殊なベクトル$\vec{x}$の積は、スカラー$\lambda$とその特殊なベクトル$\vec{x}$の積との同じ値になります。
この特殊なベクトル$\vec{x}$とその係数$\lambda$を、行列$A$に対する、固有ベクトル、固有値といいます。
例)
\begin{pmatrix} 1 & 4 \\ 2 & 3 \end{pmatrix} \begin{pmatrix} 1 \\ 1\end{pmatrix} = \begin{pmatrix} 5 \\ 5 \end{pmatrix} \\
\begin{pmatrix} 1 & 4 \\ 2 & 3 \end{pmatrix} \begin{pmatrix} 1 \\ 1\end{pmatrix} = 5 \begin{pmatrix} 1 \\ 1 \end{pmatrix}
固有値\lambda = 5\\
固有ベクトル(のうちの一つ) \vec{x} = \begin{pmatrix} 1 \\ 1 \end{pmatrix}
1.10 固有値・固有ベクトルの求め方
次の行列の固有値・固有ベクトルを求めます。
\begin{pmatrix} 1 & 4 \\ 2 & 3 \end{pmatrix}
まず固有値を求めます。
A\vec{x} = \lambda\vec{x}\\
(A-\lambda I)\vec{x} = \vec{0} \\
\vec{x} ≠ \vec{0} より \\
|A - \lambda I| = 0\\
\begin{vmatrix}1-\lambda & 4 \\ 2 & 3 - \lambda \end{vmatrix} = 0\\
(1 - \lambda)(3 - \lambda) - 4 \times 2 = 0\\
\lambda^2 - 4\lambda - 5 = 0\\
(\lambda + 1)(\lambda - 5) =0\\
\lambda = -1 or 5
$\lambda = 5の場合$
\begin{pmatrix} 1 & 4 \\ 2 & 3 \end{pmatrix}\begin{pmatrix}x_1\\x_2\end{pmatrix} = 5\begin{pmatrix}x_1\\x_2\end{pmatrix}\\
x_1 + 4x_2 = 5x_1\\
-4x_1 = -4x_2\\
x_1 = x_2\\
$\lambda = -1の場合$
\begin{pmatrix} 1 & 4 \\ 2 & 3 \end{pmatrix}\begin{pmatrix}x_1\\x_2\end{pmatrix} = -1\begin{pmatrix}x_1\\x_2\end{pmatrix}\\
x_1 + 4x_2 = -x_1\\
2x_1 = -4x_2\\
x1 = -2x_2\\
従って
\lambda = 5の場合 \vec{x} = \begin{pmatrix} 1 \\ 1 \end{pmatrix}の定数倍 \\
\lambda = -1の場合 \vec{x} = \begin{pmatrix} 2 \\ -1 \end{pmatrix}の定数倍
となります。
1.11 固有値分解
実数を正方形に並べて作られた行列$A$が固有値$\lambda_1, \lambda_2, …$と固有ベクトル$\vec{v_1}, $\vec{v_2}, …$を持つとします。
この固有値を対角線上に並べて、それ以外の成分を0とする行列
A = \begin{pmatrix} \lambda_1 & & \\ & \lambda_2 &
\\ & & \ddots \end{pmatrix}
とそれに対応する固有ベクトルを並べた行列
V = \begin{pmatrix} \vec{v_1} & \vec{v_2} & … \end{pmatrix}
これらを用意した時に次のように関係づけられます。
AV = VA
従って次のように変形できます。
A = VAV^{-1}
このように正方形の行列を上記の様な3つの行列の積に変換することを固有値分解といいます。
この変換により行列の累乗$(A^n)$の計算が容易になります。
1.12 特異値分解
正方ではない行列で分解する方法を特異値分解と言います。
長方形の行列$M$に対して左特異ベクトル$\vec{v}$、 右特異ベクトル$\vec{u}$、特異値$\vec{\sigma}$が存在する場合に特異値分解することができます。
M\vec{v} = \sigma\vec{u}\\
M^T\vec{u} = \sigma{v}
行列$M$の特異値を対角成分に持つ行列S
S = \begin{pmatrix} \sigma_1 & & \\ & \sigma_2 &
\\ & & \ddots\end{pmatrix}
※$S$ではなく$\Sigma$と書く場合もあるが、足し合わせてるわけではありません。
左特異ベクトルからなる行列$U$
U = (\vec{u_1}, \vec{u_2}, ..., \vec{u_n)}
右特異ベクトルからなる行列$V$
V = (\vec{v_1}, \vec{v_2}, ..., \vec{v_n)}
これらから以下の式が成り立ちます。
M = USV^{-1}
上記の式は次のように変換できます。
MV = US M^TU=VS^T\\
M = USV^{-1} M^T = VS^TU^{-1}
また、$M$と$M^T$の積は次のように表されます。
MM^T = USV^{-1}VS^TU{-1} = USS^TU^{-1}
転置させたものをかけることで正方に直して固有値分解のように解いています。
$MM^T$を固有値分解すれば、その左特異値ベクトル($U$)と特異値($S$)の2乗が求められることがわかります。
第2章 確率・統計
2.1 要素と集合
**「集合」とは物の集まりで、「要素」**がいくつか集まって集合になります。
要素は集合の中でそれ以上分割することはできなく、集合内でそれぞれ明確に区別することができます。
また、要素は元と呼ぶこともあります。
- 要素$a~g$が集まって集合$S$となる
S = \{a, b, c, d, e, f, g\}
- $a$は$S$に含まれる
a \in S S \ni a
- 集合Sの内部に集合Mがある場合
M \subset S S \supset M
- 要素が集合に含まれない場合
h \notin S
確率・統計では**「事象」**を集合として取り扱うことができます。
2.2 和集合と共通部分
集合Aと集合BがありAまたはBに含まれる場合に**「和集合」、集合Aと集合Bがあり両方に含まれる部分を「共通部分」**といいます。
和集合(AカップB)
A \cup B
共通部分(AキャップB)
A \cap B
2.3 絶対補と相対補
全体Uから集合Aを除いた部分を**「絶対補」、集合Bから集合Aを除いた部分を「相対補」**といいます。
全体を考える場合に絶対補で、集合から集合を除く場合に相対補とします。
絶対補
U \setminus A = \overline{A}
相対補
B \setminus A
2.4 確率
確率には二つの考え方があります。
頻度確率
くじの当たりがでる確率など何度も測定した結果で、必ず収束する確率のことです。
くじの数、あたりの数から客観的に知ることができるので**「客観確率」**ともいいます。
ベイズ確率
くじの数やあたりの数がわからなくても、いろいろな条件を使って主観的に観測する考え方のことです。
120%成功するなど数学的にはおかしいが信念の度合いを表します。
主観的なので**「主観確率」**ともいいます。
2.5 確率の定義
確率は次のように表すことができます。
- 事象$A$が発生する確率:$P(A)$
- $A$:事象
- $U$:全ての事象
- $n$:事象の数
P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数}
Aが発生する確率は事象Aの数を全ての事象で割ったもので0~1.0となります。
1年間で100日雨が降った場合P(A) = 100/365 となります。
ここで雨が降らなかった確率は
P(\overline{A}) = 1.0 - P(A)
となります。
$A$と$B$の共通部分が発生する確率は以下のように表されます。
P(A \cap B) = P(A)P(B|A)
$A$が発生する確率$P(A)$に、$A$が発生する条件下で$B$が発生する確率$P(B|A)$を掛けたものとなります。
$P(A)$は暗黙に全ての事象を考えている$P(A|U)$を表していて、$P(B|A)$は$A$が前提となっているBを考えます。
$A \cap B$も$B \cap A$も同じなので
P(A)P(B|A) = P(B)(A|B)
このようにも考えられます。
2.5 条件付確率
条件付確率とはある事象Bが与えられた下で、Aとなる確率のことです。
\begin{align}
P(A|B) = \frac{P(A \cap B)}{P(B)}\\
= \frac{n(A \cap B)}{n(B)}
\end{align}
AとBが同時に発生した確率をBの確率で割ることで求められます。
例えば、「雨が降っているときに事故が起こりやすい」とした場合、「雨が降っている条件の下で事故が発生する確率」となります。
独立な事象の同時確率
お互いに因果関係のない事象$A$と事象$B$が同時に発生する確率のことです。
\begin{align}
P(A \cap B) = P(A)(B|A)\\
= P(A)P(B)
\end{align}
独立な事象の場合、因果関係がないため$A$が発生確率は$B$の発生確率に関係ないため$P(B|A)$は$P(B)$に置き換わります。
独立な事象の和集合
お互いに因果関係のない事象$A$と事象$B$どちらかが発生する確率
\begin{align}
P(A \cup B) = P(A) + P(B) - P(A \cap B)
\end{align}
それぞれの確率を足して2重に数えている共通部分をマイナスすることで求められます。
2.6 ベイズ則の利用
ある街の子供たちが毎日1/4の確率で飴玉をもらうことができる。飴玉をもらうと1/2の確率で笑顔になる。
その街の、笑顔な子供たちが飴玉をもらっている確率を求めよ(ただし、この街の子供たちが笑顔でいる確率は1/3である。)
一般的に事象Aと事象Bに対しては入れ替えることができます。
P(A)P(B|A) = P(B)P(A|B)
これを利用して値を整理すると以下のようになります。
P(飴玉) = 1/4 P(笑顔|飴玉) = 1/2 P(笑顔)= 1/3
ここで
P(A \cap B) = P(A)P(B|A)
これを式に当てはめると
「笑顔でかつ飴玉を持っている確率P(笑顔, 飴玉)」は「飴玉を持っている確率P(飴玉)」$\times$「飴玉をもらって笑顔になる確率P(笑顔|飴玉)」
となります。
P(飴玉) \times P(笑顔|飴玉) = P(笑顔, 飴玉) \\
\frac{1}{4} \times \frac{1}{2} = \frac{1}{8}
つまり笑顔でかつ飴玉を持っている子は1/8となります。
また、P(笑顔, 飴玉)はP(飴玉, 笑顔)と置き換えることができます。
そこで
P(飴玉, 笑顔) = P(飴玉|笑顔) \times (笑顔)
とすることで
\frac{1}{8} = P(飴玉|笑顔) \times \frac{1}{3}\\
P(飴玉|笑顔) = \frac{1}{8} \times \frac{3}{1} = \frac{3}{8}
となり「笑顔な子供たちが飴玉をもらっている確率」は3/8となります。
2.7 記述統計と推測統計
記述統計
記述統計では集団の性質を要約し記述します。
全調査を行います。
推測統計
記推測統計では母集団から一部の標本を抽出し、元の集団の性質を推測します。
2.8 確率変数と確率分布
確率変数
当たりが出た時の金額など事象と結びつけられた数値です。
事象そのものを指す場合もあります。
確率分布
当たりが出る確率など事象の発生する確率の分布です。
離散値であれば表にすることができます。
期待値
おおむね平均の値です。
事象$X$で確率$P(X)$の場合に確率変数$f(X)$とすると全体では以下とります。
-
期待値:$E(f)$
-
$X$:事象
-
$P(X)$:確率
-
$f(X)$:確率変数
-
確率変数が離散値の場合の期待値
E(f)=\sum_{k=1}^n{P(X=X_{k})f(X=X_{k})}
- 確率変数が連続値の場合の期待値
E(f)=\int P(X=x)f(X=x)dx
このように連続する値でも期待値を求めることはできます
2.9 分散と共分散
分散
データの散らばり具合を表します。
データのそれぞれの値が、期待値からどれだけずれているか平均したものです。
- 分散:$Ver(f)$ (Variance)
- $E$:期待値
- $X$:事象
Ver(f) = E\left((f_{(X=x)}-E_{(f)})^2\right)= E(f^2_{(X=x)}) - (E_{(f)})^2
2乗することで絶対値を不要として計算コストを下げています。
分散を求めることで特異な値が平均値に影響していないかを求めることができます。
共分散
二つのデータ系列の傾向の違いを表します。
- 正の値をとれば似た傾向
- 負の値をとれば逆の傾向
- ゼロに近いほど関係性はなくなる
- 共分散:$Cov(f,g)$
- $E$:期待値
Cov(f,g) = E\left((f_{(X=x)}-E_{(f)})\right)\left(g_{(Y=y)}-E(g)\right) = E(fg) - E(f)E(g)
標準偏差
分散は絶対値ではなく2乗しているため単位が変わってしまいます。
例えば$cm$だったものが$cm^2$となってしまいます。
そこで平方根を求めることで単位を戻したものを標準偏差といいます。
- 標準偏差:$\sigma$
- $Var(f)$:分散
\sigma = \sqrt{Var(f)}\\
= \sqrt{E\left((f_{(X=x)}-E_{(f)})^2\right)}
2.10 確率分布
ベルヌーイ分布
コイントスのイメージで結果が二つしか存在しない(表と裏)場合の分布です。
いかさまコインのように裏と表が同じ確率でなくてもよいです。
一般的に1方を成功として$1$、もう一方を失敗として$0$とします
- ベルヌーイ分布:$P(x\mid\mu)$
- $x$:事象(表$1$ or 裏$0$)
- $\mu$:事象の発生確率
P(x\mid\mu) = \mu^x(1-\mu)^{1-x}
$x$が事象で1(表)、0(裏)、その時の発生確率が$\mu$となります。
例えば1/3で表となる場合
P(1\mid1/3) = (1/3)^1(1-1/3)^{0}=1/3\\
P(0\mid1/3) = (1/3)^0(1-1/3)^{1}=2/3\\
表が1/3で裏が2/3となり足して1になります。
マルチヌーイ分布(カテゴリカル分布)
サイコロを転がすイメージです。
いかさまダイスのように各面の出現確率が等しくなくても問題ありません。
基本的にはベルヌーイ分布と同じことを各面に対して行うので発生した事象以外の乗数が0となります。
二項分布
ベルヌーイ分布の多施行版です。
全体で$n$個あるなかから$x$個選び出します。
- 二項分布:$P(x\mid\lambda, n)$
- $n$:試行回数
- $x$:事象の発生回数
- $\lambda$:事象の発生確率
P(x\mid\lambda, n) = \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}
$n$回の施行で$x$回表がでたとしたときに、表が出る確率を$\lambda$とすると、前半分で表が$n$回出るパターン、表が$n$回出る確率が$\lambda^x$、裏が出る確率が$(1-\lambda)^{n-x}$で表されている
ガウス分布
釣鐘型の連続分布で、グラフにすると中央が山になり左右に広がった形になります。
真の分布がわからなくても、サンプルが多ければ正規分布に近づきます。
- ガウス分布:$N(x;\mu,\sigma^2)$
- $N$:正規分布 (normal distribution)
- $x$:サンプル数
- $\mu$:平均
- $\sigma^2$:分散
- $exp$:eの乗数
N(x;\mu,\sigma^2)=\sqrt{\frac{1}{2\pi\sigma^2}}exp\left(-\frac{1}{2\sigma^2}(x-\mu)^2\right)
$\sigma$の大きさで山が広がります。
また、$\mu=0$、$\sigma^2=1$の場合には**「標準正規分布」**と言います。
f(x)=\sqrt{\frac{1}{2\pi}}exp\left(-\frac{x^2}{2}\right)
2.11 推定
母集団を特徴づける母数(パラメーター:平均など)を統計的に推測することです。
点推定
平均値などを一つの値に推定することです。
区間推定
母集団の平均などを範囲(区間)を持たせて推定することです。
2.12 推定量と推定値
推定量(estimator)
パラメータを推定するために利用する数値の計算方法や計算式のことです。
推定関数ともいいます。
推定値(estimate)
実際に施行を行った結果から計算した値のことです。
真の値を$\theta$とすると推定した値は$\hat{\theta}$(ハット)と表します。
2.13 標本平均
母集団から取り出した標本の平均値のことです。
- 標本平均:$E(\hat\theta)$
- $\theta$:真の値
- $\hat{\theta}$:推定した値
- $E$:平均
E(\hat\theta) = \theta
一致性
サンプル数が大きくなれば、母集団の値に近づきます。
普遍性
サンプル数がいくらであっても、その期待値は母集団の値と同様になります。
2.14 標本分散
母集団から取り出した標本の分散値のことです。
- 標本分散:$\hat\sigma^2$
- $n$:サンプル数
- $\bar{x}$:平均
\hat\sigma^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2
一致性は満たしますが、普遍性は満たしません。
また、データが少ないとばらつきは小さくなってしまいます。
2.15 不遍分散
標本分散では頭に$\frac{1}{n}$を付けましたが、不偏分散では$\frac{1}{n-1}$を付けます。
- 不偏分散:$s^2$
- $n$:サンプル数
- $\bar{x}$:平均
s^2=\frac{n}{n-1}\times\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2 = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2
標本分散では、ばらつきが小さくなってしまうために1を引くことで分母を小さくして分散を大きくしています。
また、$n$が小さいほど$n-1$の重要度は上がります。
第3章 情報理論
3.1 自己情報量
情報量とは、情報の大きさを表しています。
自己情報量とは、事象そのものの情報量を示します。
- 自己情報量:$I(x)$
- $P(x)$:事象$x$の発生確率
I(x) = -log\left(P(x)\right)=log\left(W(x)\right)
事象が珍しいほど発生確率は低くなり、情報量は大きくなります。
対数の底が2のとき、単位はビット(bit)になり、対数の底がネイピア$e$のとき、単位は(nat)になります。
3.2 シャノンエントロピー
自己情報量の期待値を表します。
- シャノンエントロピー:$H(x)$
- $E$:期待値
H(x) = E\left(I(x)\right)\\
= -E(log(P(x))\\
= -\sum(P(x)log(P(x)))
例えばコイントスで裏ばかり出るコインを使用する場合は情報量が少なくなりますが、表裏が平等に出るコインを使用する場合ほど情報量は多くなります。
3.3 カルバック・ライブラー ダイバージェンス
KLダイバージェンスは距離に近い概念で同じ事象・確率変数における異なる確率分布P,Qの違いを表します。
・もともと考えられていた分布がQ
・Qで実際図ってみるとPだった
例)コインの表が出る確率が1/2(Q)と思ったら、いかさまコインで表が1/5(P)だったときの違い等
- KLダイバージェンス:$D_{KL}(P\mid\mid Q)$
D_{KL}(P\mid\mid Q)=E_{x~P}\left[ log \frac{P(x)}{Q(x)}\right] = E_{x~P} [logP(x)-logQ(x)]
I(Q(x))-I(P(x))=-(log(Q(x))) - (-log(P(x))) = log \frac{P(x)}{Q(x)}
D_{KL}(P||Q)=\sum_x P(x)(-log(Q(x)))-(-log(P(x))) =\sum_xP(x)\frac{P(x)}{Q(x)}
3.4 交差エントロピー
KLダイバージェンスの一部を取り出したものです。
$Q$についての自己情報量を$P$の分布で平均しています。
- 交差エントロピー:$H(P,Q)$
H(P,Q)=H(P)+D_{KL}(P||Q)