本記事はラビットチャレンジで提出する必要があるレポートです。
本記事では以下の3つのタイトルで、ポイントをまとめております。
▷ 線形代数
▷ 確率・統計
▷ 情報理論
1. 線形代数
1-1.ベクトルとスカラーの違い
スカラー(scaler)とは大きさのみを持つ量のこと。→「特定の座標系とは無関係である量」のことをいう。
ベクトル(vector)とは矢印と同じイメージで長さ(大きさ)と、角度(向き)が存在することをいう。→「大きさと向きを持つ量」のことをいう。
ex.)スカラー量・・・体重、質量、温度、密度
ex.)ベクトル量・・・速度、加速度、力、圧力
行ベクトルは下記の通りです。
\begin{pmatrix}
a \\
b
\end{pmatrix}
1-2. 行列
行列(Matrix)とは、数字・記号・式などを縦と横に並べたもののことを言います。
2x2の行列は下記の通りです。
\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}
1-3. 行列とベクトルの積
行列とベクトルの積は新たな成分のベクトルを求めるために行う。
\left(
\begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22} \\
\end{array}
\right)
\left(
\begin{array}{c}
b_{1} \\
b_{2} \\
\end{array}
\right)
=
\left(
\begin{array}{c}
a_{11}b_{1}+a_{12}b_{2} \\
a_{21}b_{1}+a_{22}b_{2} \\
\end{array}
\right)
ex)
\begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
\begin{pmatrix}
1 \\ 2
\end{pmatrix}
=
\begin{pmatrix}
1\times1+2\times2 \\ 3\times1+4\times2
\end{pmatrix}
=
\begin{pmatrix}
5 \\ 11
\end{pmatrix}
1-4. 行列同士の積
行列と行列の積は新たな成分行列を求めるために行う。
\left(
\begin{array}{cc}
a_{11} & a_{12} \\
a_{21} & a_{22} \\
\end{array}
\right)
\left(
\begin{array}{cc}
b_{11} & b_{12} \\
b_{21} & b_{22} \\
\end{array}
\right)
=
\left(
\begin{array}{cc}
a_{11}b_{11}+a_{12}b_{21} & a_{11}b_{12}+a_{12}b_{22} \\
a_{21}b_{11}+a_{22}b_{21} & a_{21}b_{12}+a_{22}b_{22} \\
\end{array}
\right)
ex)
\begin{pmatrix}
2 & 3 \\
4 & 5
\end{pmatrix}
\begin{pmatrix}
2 & 3 \\
4 & 5
\end{pmatrix}
=
\begin{pmatrix}
2\times2+3\times4 & 2\times3+3\times5 \\
4\times2+5\times4 & 4\times3+5\times5
\end{pmatrix}
=
\begin{pmatrix}
16 & 21 \\
28 & 37
\end{pmatrix}
1-5. 単位行列
任意の正方行列Eに対して
AE=EA=A
となる行列Eを単位行列という。
E
=
\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
ex)
\begin{pmatrix}
2 & 3 & 4 \\
5 & 6 & 7 \\
8 & 9 & 10 \\
\end{pmatrix}
\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
\begin{pmatrix}
2 & 3 & 4 \\
5 & 6 & 7 \\
8 & 9 & 10 \\
\end{pmatrix}
=
\begin{pmatrix}
2 & 3 & 4 \\
5 & 6 & 7 \\
8 & 9 & 10 \\
\end{pmatrix}
1-6. 逆行列
n次正方行列Aに対してXA=AX=E(Eは単位行列)となるような行列Xが存在するとき、
XをAの逆行列といい、
X=A^{-1}
と表せる。
代表的な求め方は「掃き出し法」である。
ex)
\begin{pmatrix}
4 & 2 & 3 \\
2 & 1 & 1 \\
3 & 2 & 3 \\
\end{pmatrix}
\begin{pmatrix}
1 & 0 & -1 \\
-3 & 3 & 2 \\
1 & -2 & 0 \\
\end{pmatrix}
=
\begin{pmatrix}
4 & 2 & 3 \\
2 & 1 & 1 \\
3 & 2 & 3 \\
\end{pmatrix}
\begin{pmatrix}
1 & 0 & -1 \\
-3 & 3 & 2 \\
1 & -2 & 0 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1\\
\end{pmatrix}
よって、
A^{-1}
=
\begin{pmatrix}
1 & 0 & -1 \\
-3 & 3 & 2 \\
1 & -2 & 0 \\
\end{pmatrix}
1-7. 行列式
逆行列の有無を導出することができる。
以下のような正方行列があるとき、
\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}
行列式は
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
= ad - bc
と表され、$ad-bc=0$ のとき、逆行列は存在しない。
ちなみに、3×3行列のときは以下のように求められる。
\begin{vmatrix}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{vmatrix}
= a_{11}
\begin{vmatrix}
a_{22} & a_{23}\\
a_{32} & a_{33}
\end{vmatrix} -
a_{21}
\begin{vmatrix}
a_{12} & a_{13}\\
a_{32} & a_{33}
\end{vmatrix} +
a_{31}
\begin{vmatrix}
a_{12} & a_{13}\\
a_{22} & a_{23}
\end{vmatrix}
1-8. 固有ベクトル、固有値
固有ベクトルとは線形変換を行っても向きが変わらないベクトルのことです。
普通、線形変換をするとベクトルは向きが変わります(正確には部分空間から外れる)が、
線形変換しても部分空間から外れないベクトルがある。これを固有ベクトルという。
固有値とはある行列の固有ベクトルが線形変換後に何倍になるのか示す値。
固有値は慣習的にラムダ記号(λ)で表し、ある行列Aと固有ベクトル$\vec{x}$があるとき
A\vec{x} = λ\vec{x}
と表すことができる。
このように正方形の行列を上述のような三つの行列の積に変換することを固有値分解という。
ex)
\begin{pmatrix}
1 & 4 \\
2 & 3 \\
\end{pmatrix}
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
=
\begin{pmatrix}
5 \\
5 \\
\end{pmatrix}
=
5
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
この時、固有値は
λ=5
固有ベクトル(のうちの一つ)は
\vec{x}
=
\begin{pmatrix}
1 \\
1 \\
\end{pmatrix}
1-9.固有値分解
ある正方行列$A$が固有値λ固有ベクトルvを持つとき
\Lambda=
\left(
\begin{array}{ccc}
\lambda_{1} & & \\
& \lambda_{2} & \\
& & \ddots \\
\end{array}
\right)
V=
\left(
\begin{array}{ccc}
\vec{v}_{1} & \vec{v}_{2} & \cdots \\
\end{array}
\right)
AV=V{\Lambda}
と関係付けられる。したがって
A=V{\Lambda}V^{-1}
と変形することができ、これを固有値分解という。
ex)
\begin{pmatrix}
1 & 4 \\
2 & 3 \\
\end{pmatrix}
=
\begin{pmatrix}
1 & 1 \\
1 & -1/2 \\
\end{pmatrix}
\begin{pmatrix}
5 & 0 \\
0 & -1 \\
\end{pmatrix}
\begin{pmatrix}
1/3 & 2/3 \\
2/3 & -2/3 \\
\end{pmatrix}
1-10.固有値分解のメリット
1.行列の特徴を捉えやすくなる。
2.ゼロに近い固有値は行列全体に与える影響が小さいため、この固有値を無視すること(次元削減)で、高精度で近似計算できる。
3.$A^{n}$の計算が楽になる。
1-11.特異値分解
正方行列以外(長方形)の固有値分解のようなもの
M\vec{v} = σ\vec{u}\\
M^{T}\vec{u} = σ\vec{v}
上記のようなと特殊な単位ベクトルがあるならば特異値分解ができる。
M = USV^{T}
$ \qquad M, S$:長方行列(一般行列)
$ \qquad M^{T}, S^{T}$:$M, S$の転置
$ \qquad U, V$:直交行列
$ \qquad U^{T}, V^{T}$:$U, V$の転置
特異値を求める方法
MV = US\\
M^{T} = VS^{T}\\
M = USV^{T}\\
M^{T} = VS^{T}U^{T}\\
MM^{T} = USV^{T}VS^{T}U^{T} = USS^{T}U^{T}
転置行列をかけたものを固有値ベクトルを求めると求められる。
逆行列は転置行列で求められる。
$MM^{T}$を固有値分解すれば、その左の特異ベクトルと特異値が求められる。
特異値分解の利用例
画像データに対して特異値分解をかけてデータ量を削減できる。
メリットは固有値分解とほぼ同じ
2. 確率・統計
2-1. 頻度確率(客観確率)
発生する頻度のこと。客観確率ともいう
ex)「100本のうち1本だけあたりのクジを引いて当選する確率を調べたところ1%であった」という事実。
2-2. ベイズ確率(主観確率)
信念(気持ちの強さ)の度合いのこと。
ex):「あなたは50%の確率で事故に遭います」という診断。
2-3. 条件付き確率
ある事象$X = x$という条件の元、事象$Y = y$に含まれる確率。
ex)雨が降っているという条件のもと、交通事故にあう確率
2-4. 同時確率
お互いの事象には無関係な2つ以上の事象$X = x,Y = y$が同時に起こる確率
P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=\frac{n(A\cap{B})}{n(B)}
$P(A\cap{B})$:事象$A$と事象$B$が同時に発生する確率
$P(B)$:事象$B$が発生する確率
2-5. ベイズ則
$P(A\cap{B})=P(A)P(B\mid{A})なので、条件付き確率の定義式を以下のように変形できる。
P(A\mid{B})=\frac{P(A\cap{B})}{P(B)}=\frac{P(A)P(B\mid{A})}{P(B)}
これをベイズ則という。
2-6. 確率変数と確率分布
確率変数
事象と結びつけられた数値
事象そのものを指すと解釈される
確率分布
事象の発生する確率の分布
離散値であれば表に出せる
2-7. 期待値
その分布における「平均」「ありえそうな値」のこと
期待値→平均の値 「『各確率変数』に『その確率変数のでる確率』をかけた数」の合計
$ E(f)= \sum_{k=1}^{n}(P(X=x_{k})f(X=x_{k})$:離散値における確率変数$f(X=x)$の期待値
$ E(f)= \int(P(X=x)f(X=x)dx$:連続値における確率変数$f(X=x)$の期待値
$ \quad X$:事象($x_{1}, x_{2}, \ldots , x_{n}$)
$ \quad f(X=x)$:事象$x$の確率変数
$ \quad P(X=x)$:事象$x$の発生する確率
2-8. 分散と共分散
分散
データの散らばり具合のこと
データの各々の値が,期待値からどれだけズレているのか平均したもの
Var(f)=E((f_{(X=x)}-E_{f})^2)=E(f_{(X=x)}^2)-(E_{f})^2
共分散
二つのデータ系列の傾向の違い
正の値をとれば似た傾向
負の値をとれば逆の傾向
0をとれば関係性に乏しい
Conv(f,g)=E((f_{(X=x)}-E_{f})(g_{(Y=y)}-E_{g}))=E(fg)-E(f)E(g)
2-9.分散と標準偏差
分散は二乗しているので、元のデータと単位違う。
したがって、二乗することの逆援することの逆演算をすれば元の単位に戻る。
σ=\sqrt{Var(f)}=\sqrt{E \bigl(f_{(X=x)}\bigr)^2- \bigl(E_{(f)} \bigr)^2}
2-10.ベルヌーイ分布
コイントスのイメージ
裏と表の割合が等しくなくても使える
P(x\mid\mu)=\mu^x(1-\mu)^{1-x}
2.11.マルチヌーイ分布
ベルヌーイ分布の多分類版
サイコロを転がすイメージ
各面の出る割合が等しくなくても使える。
2-11. 二項分布
ベルヌーイ分布の多試行版
P(x|λ,n) = \frac{n!}{x!(x-n)!}λ^x(1-λ)^{n-x}
2-12.ガウス分布(正規分布)
釣鐘型の連続分布
$ N(x; \mu, \sigma^{2}) = \sqrt{\dfrac{1}{2\pi\sigma^{2}}}\exp\biggl(-\dfrac{1}{2\sigma^{2}}(x - \mu)^{2}\biggr) $:ガウス分布
$ \quad x$:事象$X$のうちのひとつの確率変数
$ \quad \mu$:事象$X$の確率変数の期待値
$ \quad \sigma^{2}$:事象$X$の確率変数の分散
特徴
平均値と最頻値と中央値が一致する。
平均値を中心にして左右対称である。(直線$x=u$に対して対象)
$x$軸が漸近線である。
分散(標準偏差)が大きくなると、曲線の山は低くなり、左右に広がって平らになる。分散(標準偏差)が小さくなると、山は高くなり、よりとんがった形になる。
3.情報理論
3-1.自己情報量
情報量の定義
1:発生する確率が低いこと(珍しいこと)が分かった時のほうが、情報量が多い
2:情報量は足し算で増えていく。
自己情報量
対数の底が2のとき,単位はビット(bit)
対数の底がネイピアのeのとき,単位は(nat)
I(x) = -log(P(x))
= log(W(x))
3.2. シャノンエントロピー
微分エントロピーともいうが,微分しているわけではない
自己情報量の期待値→事象$x$の情報の珍しさの平均値
\begin{align}
H(x) &= E(I(x))\\
&= -E(log(P(x))\\
&= -\sum (P(x)log(P(X))\\
\end{align}
3-3. カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す
尤度比(尤もらしさを比較する尺度)を log 変換し(乗算操作を線形結合に直す、凸関数だから最適化との相性良い)、期待値(確率密度の重み付きの積分、ルベーグ積分)をとったもの」として定義される。
$D_{KL}(P \mid\mid Q) = E_{x\sim{P}}\begin{bmatrix}\log\dfrac{P(x)}{Q(x)}\end{bmatrix}$
$\log\dfrac{P(x)}{Q(x)} = \log(P(x)) - \log(Q(x)) = -(-log(P(x))) + (-log(Q(x))) = -I_{P}(x) + I_{Q}(x) = I_{Q}(x) -I_{P}(x)$
上記より
$D_{KL}(P \mid\mid Q) = E_{x\sim{P}}(I_{Q}(x) -I_{P}(x))$
$ \quad I(x)$:自己情報量→$x$の情報の珍しさ
$ \qquad I_{Q}(x)$:想定していた珍しさ
$ \qquad I_{P}(x)$:判明した珍しさ
$ E_{x\sim{P}}$の意味
平均値の公式:$E(f) = \sum(P(x)f(x))$ において、
確率変数に「$x$」、確率分布に「想定していた確率分布$Q$」ではなく「判明した確率分布$P$」を使用することを示している。
3-4.交差エントロピー
2つの確率分布がどの程度離れているかを判定するために使用す。ニューラルネットワークなどの機械学習の誤差関数としてよく用いられる。
KLダイバージェンスの一部分を取り出したもの
Qについての自己情報量をPの分布で平均している
H(P,Q) = H(P) + D_{KL}(P||Q) \\
H(P,Q) = -E_{X\sim P} log(Q(x)