はじめに
本記事は、E資格の受験にあたり受講必須な認定プログラムのひとつである、ラビットチャレンジのレポート(応用数学編)です。
線形代数
スカラーとベクトル
- スカラーはいわゆる普通の数であり、ベクトルに対する係数になれる。
- ベクトルは「大きさ」と「向き」を持ち、スカラーとのセットで表現される。
行列
- スカラーを表にしたもの
- ベクトルを並べたもの(ベクトルのベクトル)
行列はベクトルの変換に利用される。
行列の積と連立方程式
行列の積の計算例
{\begin{pmatrix}
1 & 2 \\
2 & 3
\end{pmatrix}
\times
\begin{pmatrix}
1 \\ 2
\end{pmatrix}
=
\begin{pmatrix}
1\times1+2\times2 \\ 2\times1+3\times2
\end{pmatrix}
=
\begin{pmatrix}
5 \\ 8
\end{pmatrix}
}
{\begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
\times
\begin{pmatrix}
4 & 3 \\
2 & 1
\end{pmatrix}
=
\begin{pmatrix}
1 \times 4 + 2 \times 2 & 1\times 3 + 2 \times 1 \\
3 \times 4 + 4 \times 2 & 3 \times 3 + 4 \times 1
\end{pmatrix}
=
\begin{pmatrix}
9 & 5 \\
20 & 13
\end{pmatrix}
}
行列の積は、対応する「行」×「列」を足し合わせることで計算できる。
その結果が新しい行列の成分となる。
行列の積は少々不思議な計算方法であるが、これは連立方程式の研究から生まれた発想らしい。
固有値と固有ベクトル
ある行列Aに対して、以下のような式が成り立つような、特殊なベクトル$\vec{x}$と係数λがある。
A\vec{x} = λ\vec{x}
行列Aとその特殊なベクトル$\vec{x}$の積は、ただのスカラーの数λとその特殊なベクトル$\vec{x}$との積と同じ値になる。
この特殊なベクトル$\vec{x}$を行列Aに対する固有ベクトル、係数λを行列Aに対する固有値という。
固有値・固有ベクトルの具体例
{\begin{pmatrix}
1 & 4 \\
2 & 3
\end{pmatrix}
\begin{pmatrix}
1 \\ 1
\end{pmatrix}
=
\begin{pmatrix}
5 \\ 5
\end{pmatrix}
=5
\begin{pmatrix}
1\\ 1
\end{pmatrix}
}
この時、固有値𝜆=5
固有ベクトル(のうちの一つ)
{\vec{x}
=
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
}
固有値分解
ある実数を正方形にならべて作られた行列A(Aは正方行列)が固有値と固有ベクトルを持つとする。この固有値を対角線上に並べた行列Λ(Λは対角行列:対角線上以外の成分は0)
{Λ =
\begin{pmatrix}
λ_1 & \\
& λ_2 \\
& & \ddots
\end{pmatrix}
}
と、それに対応する固有ベクトルを並べた行列V(Vは正則行列:掛け合わせると単位行列になる)
{V =
\begin{pmatrix}
\vec{v_1} & \vec{v_1} & \cdots
\end{pmatrix}
}
を用意した時、それらは
AV = VΛ
と関係付けられる。したがって
A = VΛV^{-1}
と変形できる。このように正方形の行列を3つの行列の積に変換することを固有値分解という。この変換によって行列の累乗の計算が容易になる等の利点がある。
特異値分解
上記の固有値分解は正方行列で行ったが、条件を満たせば正方行列ではない行列でも似たようなことができる。
条件というのは、以下の式をみたす特殊な単位ベクトル$U,V$が存在することである。
M = USV^{-1}
$U,V$が存在するとき、$U,S,V^{-1}$を求めることで、正方行列ではない行列$M$の分解ができる。
このような分解を特異値分解という。
\begin{array}{l}
M=U S V^{-1} \\
M^{\top}=V S^{\top} U^{-1}\\
\end{array}
これにより
{M M^{\top}=U S V^{-1} V S^{\top} U^{-1}=U S S^{\top} U^{-1}\\
}
$𝑀𝑀^{\top}$は正方行列であり、その固有値分解した結果が$USS^{\top}U^{-1}$である。
このことから、$U$が求められる。
同様に
{M^{\top}M=V S^{\top} U^{-1}U S V^{-1} =V S S^{\top} V^{-1}\\
}
から、$V^{-1}$が求められる。
また、$SS^{\top}=S^{2}$なので$S$も求められる。
よって、$U,S,V^{-1}$が求められた。
$USV^{-1}$が$M$が特異値分解された結果である。
確率・統計
頻度確率(客観確率)
発生する頻度
例:「10本のうち一本だけ当たりのクジを引いて当選する確率を調べたところ10%であった」という事実
ベイズ確率(主観確率)
信念の度合い
例:「あなたは40%の確率でインフレンザです」という診断
条件付き確率
ある事象X=xが与えられた下で,事象Y=yとなる確率
P(Y=y|X=x) = \frac{P(Y=y,X=x)}{P(X=x)}
例 : 雨が降っている時に交通事故に遭う確率
X:「雨が降っている」事象
Y:「交通事故に遭う」事象
独立な事象の同時確率
お互いの発生には因果関係のない事象X=xと事象Y=yが同時に発生する確率
P(X=x,Y=y)=P(X=x)P(Y=y)=P(Y=y,X=x)
ベイズ則
ある事象Bが発生した原因が事象Aである確率を導く定理
{P(A|B) = \frac{P(B|A)P(A)}{P(B)}
}
例 : 子供が喜んでいる原因が飴をもらったからである確率
A:「飴をもらった」事象
B:「子供が喜んでいる」事象
確率変数/確率分布/期待値
確率変数は、事象と結び付けられた数値。
確率分布は、事象の発生する確率の分布。
期待値は、その分布における確率変数の平均値、または「ありえそうな値」を指す。
分散と共分散
分散は、データの散らばり具合。データの各々の値が,期待値からどれだけズレているのか平均したもの。
{分散Var(f) = E((f_{(X=x)}-E_{(f)})^2) = E(f^2_{(X=x)}) - (E_{(f)})^2
}
※分散の平方根は標準偏差である。
共分散は、2つのデータ系列の傾向の違い。
- 正の値を取れば似た傾向
- 負の値を取れば逆の傾向
- ゼロを取れば関係性に乏しい。
{共分散Cov(f,g) = E((f_{(X=x)}-E_{(f)})(g_{(Y=y)}-E(g)) = E(fg) - E(f)E(g)
}
様々な確率分布
ベルヌーイ分布(二項分布)やマルチヌーイ分布、ガウス分布などがある。
情報理論
自己情報量
自己情報量は
- 対数の底が2のとき、単位はbit
- 対数の底がネイピア数のとき、単位はnat。
{I(x) = -log(P(x)) = log(W(x))
}
シャノンエントロピー
自己情報量の期待値
H(x) = E(I(x))
= -E(\log(P(x)))
= -\Sigma (P(x) \log(P(x)))
カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表した式
{D_{KL}(P||Q) = \mathbb{E}_{x~P} \begin{bmatrix} log \frac{P(x)}{Q(x)} \end{bmatrix} = \mathbb{E}_{x~P} \begin{bmatrix} logP(x) - logQ(x) \end{bmatrix}
}
交差エントロピー
- カルバック・ライブラー ダイバージェンスの一部を取り出したもの
- 確率分布Qについての自己情報量を確率分布Pで平均している
{D_{KL}(P||Q) = \sum_x P(x)(-log(Q(x))) - (-log(P(x))) \\
H(P, Q) = \sum_x P(x)logQ(x) \\
H(P, Q) = H(P) + D_{KL}(P||Q)
}