はじめに
本記事はJDLA E資格の認定プログラム「ラビット・チャレンジ」における応用数学のレポート記事です。
本記事では以下の3つの項目について、要点をまとめています。
- 線形代数
- 確率・統計
- 情報理論
1. 線形代数
1.1. ベクトル
ベクトルとは大きさと向きをもった量のこと。
以下のように表される。
\begin{pmatrix}
1 \\
2
\end{pmatrix}
1.2. 行列
スカラーを表にしたもの。あるいは、ベクトルを並べたもの。
横方向を「行」、縦方向を「列」と呼び、3行3列(3×3行列)なら以下のように表される。
\begin{pmatrix}
1 & 2 & 3\\
4 & 5 & 6\\
7 & 8 & 9
\end{pmatrix}
1.3. 行列とベクトルの積
行列とベクトルの積は以下のように行う。
\left(
\begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22} \\
\end{array}
\right)
\left(
\begin{array}{c}
b_{1} \\
b_{2} \\
\end{array}
\right)
=
\left(
\begin{array}{c}
a_{11}b_{1}+a_{12}b_{2} \\
a_{21}b_{1}+a_{22}b_{2} \\
\end{array}
\right)
例
\begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
\begin{pmatrix}
1 \\ 2
\end{pmatrix}
=
\begin{pmatrix}
1\times1+2\times2 \\ 3\times1+4\times2
\end{pmatrix}
=
\begin{pmatrix}
5 \\ 11
\end{pmatrix}
1.4. 行列同士の積
行列と行列の積も計算できる。
\left(
\begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22} \\
\end{array}
\right)
\left(
\begin{array}{cc}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
\end{array}
\right)
=
\left(
\begin{array}{cc}
a_{11}b_{11}+a_{12}b_{21} & a_{11}b_{12}+a_{12}b_{22} \\
a_{21}b_{11}+a_{22}b_{21} & a_{21}b_{12}+a_{22}b_{22} \\
\end{array}
\right)
例
\begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
\begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
=
\begin{pmatrix}
1\times1+2\times3 & 1\times2+2\times4 \\
3\times1+4\times3 & 3\times2+4\times4
\end{pmatrix}
=
\begin{pmatrix}
7 & 10 \\
15 & 22
\end{pmatrix}
1.5. 単位行列
正方行列の対角成分が1で、それ以外が0である行列。
単位行列を$I$とすると、行列$A$について、$AI=IA=A$ となる。
I
=
\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
例
\begin{pmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9 \\
\end{pmatrix}
\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 2 & 3 \\
4 & 5 & 6 \\
7 & 8 & 9 \\
\end{pmatrix}
1.6. 逆行列
行列における逆数のようなもの。
正方行列$A$に対して、$AX=XA=I$($I$は単位行列)となる行列$X$が存在するとき、
$X$を$A$の逆行列といい、$X=A^{-1}$と表す。($AA^{-1}=A^{-1}A=I$ となる)
例
\begin{pmatrix}
2 & 5 \\
1 & 3 \\
\end{pmatrix}
\begin{pmatrix}
3 & -5 \\
-1 & 2 \\
\end{pmatrix}
=
\begin{pmatrix}
3 & -5 \\
-1 & 2 \\
\end{pmatrix}
\begin{pmatrix}
2 & 5 \\
1 & 3 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 \\
0 & 1 \\
\end{pmatrix}
よって、
A^{-1}
=
\begin{pmatrix}
3 & -5 \\
-1 & 2 \\
\end{pmatrix}
1.7. 行列式
逆行列の有無を判別するための式。
以下のような正方行列があるとき、
\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}
行列式は
\begin{vmatrix}
a & b \\
c & d
\end{vmatrix}
= ad - bc
と表され、$ad-bc=0$ のとき、逆行列は存在しない。
ちなみに、3×3行列のときは以下のように求められる。
\begin{vmatrix}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{vmatrix}
= a_{11}
\begin{vmatrix}
a_{22} & a_{23}\\
a_{32} & a_{33}
\end{vmatrix} -
a_{21}
\begin{vmatrix}
a_{12} & a_{13}\\
a_{32} & a_{33}
\end{vmatrix} +
a_{31}
\begin{vmatrix}
a_{12} & a_{13}\\
a_{22} & a_{23}
\end{vmatrix}
1.8. 固有値と固有ベクトル
ある行列$A$に対して、以下のような式が成り立つようなベクトル$\vec{x}$と、右辺の係数$λ$がある。
A\vec{x} = λ\vec{x}
行列$A$とこの$\vec{x}$の積は、ただのスカラーの数$λ$と$\vec{x}$との積と同じ値になる。
このような特殊な$\vec{x}$とその係数$λ$を、行列$A$に対する、固有ベクトル、固有値という。
例
\begin{pmatrix}
1 & 4 \\
2 & 3 \\
\end{pmatrix}
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
=
\begin{pmatrix}
5 \\
5 \\
\end{pmatrix}
=
5
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
この時、固有値は
λ=5
固有ベクトル(のうちの一つ)は
\vec{x}
=
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
1.9. 固有値分解
正方行列$A$を、固有値を対角成分とした行列$\Lambda$、固有ベクトルを並べた行列$V$、固有ベクトルを並べた行列の逆行列$V^{-1}$に分解し、以下のように3つの行列の積に変換すること。
\Lambda=
\left(
\begin{array}{ccc}
\lambda_{1} & & \\
& \lambda_{2} & \\
& & \ddots \\
\end{array}
\right)
V=
\left(
\begin{array}{ccc}
\vec{v}_{1} & \vec{v}_{2} & \cdots \\
\end{array}
\right)
A=V{\Lambda}V^{-1}
例
\begin{pmatrix}
1 & 4 \\
2 & 3 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 1 \\
1 & -1/2 \\
\end{pmatrix}
\begin{pmatrix}
5 & 0 \\
0 & -1 \\
\end{pmatrix}
\begin{pmatrix}
1/3 & 2/3 \\
2/3 & -2/3 \\
\end{pmatrix}
1.10. 特異値分解
正方行列に対してのみ可能な固有値分解に対して、特異値分解は長方行列に対して固有値分解に似たような分解を行う方法。
M\vec{v}=\sigma\vec{u} \\
M^{T}\vec{u}=\sigma\vec{v}
このような単位ベクトル$\vec{v}$, $\vec{u}$があるならば特異値分解をすることができ、以下のように表す。
M=USV^{T} \\
M^{T}=VS^{T}U^{T}
上記の式の積は以下となる。
MM^{T}=USV^{T}VS^{T}U^{T}=USS^{T}U^{T}
$MM^{T}$の積は正方行列となるため、固有値分解しているのと同じとみなせる。
$MM^{T}$を固有値分解することで、その左特異ベクトルと特異値の2乗が求められる。
例
\begin{align}
M
&=
\begin{pmatrix}
1 & 2 & 3 \\
3 & 2 & 1 \\
\end{pmatrix}\\
&=
\begin{pmatrix}
1/\sqrt{2} & -1/\sqrt{2} \\
1/\sqrt{2} & 1/\sqrt{2} \\
\end{pmatrix}
\begin{pmatrix}
2\sqrt{6} & 0 & 0 \\
0 & 2 & 0 \\
\end{pmatrix}
\begin{pmatrix}
1/\sqrt{3} & 1/\sqrt{3} & 1/\sqrt{3} \\
1/\sqrt{2} & 0 & -1/\sqrt{2} \\
1/\sqrt{6} & -2/\sqrt{6} & 1/\sqrt{6} \\
\end{pmatrix}
\end{align}
2. 確率・統計
2.1. 頻度確率(客観確率)
発生する頻度のこと。
例:「10本のうち一本だけあたりのクジを引いて当選する確率を調べたところ10%であった」という事実。
2.2. ベイズ確率(主観確率)
信念の度合いのこと。
例:「あなたは60%の確率でインフルエンザです」という診断。
2.3. 条件付き確率
ある事象$B$という条件の元、事象$A$に含まれる確率。
P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=\frac{n(A\cap{B})}{n(B)}
$P(A\cap{B})$:事象$A$と事象$B$が同時に発生する確率
$P(B)$:事象$B$が発生する確率
2.4. 独立な事象の同時確率
独立とはそれぞれの事象の発生に、因果関係がないことを指す。
同時確率とは複数の事象が同時に発生する確率のことを指す。
独立な事象$A,B$が同時に発生する確率は以下のようになる。
P(A\cap{B})=P(A)P(B\mid{A})=P(A)P(B)
$P(B\mid{A})$は事象$A$という条件の元で事象$B$が発生する確率である。独立ならば事象$A$は確率に関係しないため、事象$P(B)$と同じとなる。
2.5. ベイズ測
$P(A\cap{B})=P(A)P(B\mid{A})$であるため、条件付き確率の定義式を以下のように変形できる。
P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=\frac{P(A)P(B\mid{A})}{P(B)}
この式をベイズ測と呼ぶ。
2.6. 記述統計
母集団の性質を要約して記述すること。
いわゆる全数調査であり、データが全て揃っている(母集団が既知)ことが条件となる。
2.7. 推測統計
母集団の一部である標本から母集団を推測すること。
いわゆる抜き取り調査であり、データを全て集めることが難しい場合に行う。
2.8. 確率変数と確率分布
確率変数とは、事象と結びつけられた数値、または事象そのもののこと。
確率分布とは、事象が発生する確率の分布のこと。離散値であれば表に示せる。
2.9. 期待値
ある分布における確率変数の平均の値のこと。
離散値の期待値
E(f)=\sum_{k=1}^n{P(X=X_{k})f(X=X_{k})}
連続値の期待値
E(f)=\int{P(X=x)f(X=x)dx}
$P(X=x)$が事象$x$が発生する確率、$f(X=x)$が事象$x$に対する確率変数を表す。
2.10. 分散
データの散らばり具合のこと。
データの各値が期待値からどれだけズレているのか平均したもの。
分散が大きいほどデータが散らばっていることになる。
Var(f)=E((f_{(X=x)}-E_{f})^2)=E(f_{(X=x)}^2)-(E_{f})^2
2.11. 共分散
2つのデータの傾向の違いのこと。
正の値を取れば似た傾向、負の値を取れば逆の傾向、ゼロを取れば関係性に乏しい。
Conv(f,g)=E((f_{(X=x)}-E_{f})(g_{(Y=y)}-E_{g}))=E(fg)-E(f)E(g)
2.12. 標準偏差
分散の平方根を取ると標準偏差となる。
標準偏差も分散と同様にデータの散らばり具合を表すが、元のデータと単位が揃う(分散は2乗しているため単位が合わない)のでより分かりやすい。
σ=\sqrt{Var(f)}=\sqrt{E \bigl(f_{(X=x)}\bigr)^2- \bigl(E_{(f)} \bigr)^2}
2.13. 様々な確率分布
ベルヌーイ分布
2択の確率分布のことであり、2択の試行をベルヌーイ試行と呼ぶ。
例:コイントス(表or裏)。
P(x\mid\mu)=\mu^x(1-\mu)^{1-x}
一方で、複数の事象を表す分布をマルチヌーイ分布という。
例:さいころを転がす(1,2,3,4,5,6)。
二項分布
ベルヌーイ分布の多試行版。
P(x|λ,n) = \frac{n!}{x!(x-n)!}λ^x(1-λ)^{n-x}
正規分布
釣鐘型の連続分布。
現実のあらゆる場面で登場し、理論的にも非常に重要な連続型確率分布である。
N(x;μ,σ^2) = \sqrt{\frac{1}{2πσ^2}}exp
\bigl(
-{\frac{1}{2σ^2}}(x-μ)^2
\bigr)
3. 情報理論
3.1. 自己情報量
対数の底が2の時、単位はbitとなる。
対数の底がネイピアeのとき、単位はnatなる。
I(x) = -log(P(x))
= log(W(x))
3.2. シャノンエントロピー
自己情報量の期待値のこと。
\begin{align}
H(x) &= E(I(x))\\
&= -E(log(P(x))\\
&= -\sum (P(x)log(P(X))\\
\end{align}
3.3. カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
KL情報量、KL距離とも呼ぶ。
確率P、確率Qの確率分布がどれだけ近いか、どれだけ遠いかを距離のように表す。
D_{KL}(P||Q) = E_{X\sim P}
\begin{bmatrix}
logP(x)-logQ(x)
\end{bmatrix}
3.4 交差エントロピー
KLダイバージェンスの一部を取り出したもので、Qについての自己情報量をPの分布で平均したもの。
H(P,Q) = H(P) + D_{KL}(P||Q) \\
H(P,Q) = -E_{X\sim P} log(Q(x)