応用数学
0.用語
・スカラー
ベクトルに対する係数
四則演算が可能
・ベクトル
大きさと向きを持つ量
スカラーの集合で表される
・行列
スカラーを表形式で表したもの
ベクトルを並べたもの
(用途)ベクトルの変換
・逆行列の公式
行列A:A=
$\begin{pmatrix}
a & b \\
c & d \\
\end{pmatrix}の場合
A^{-1}=
\frac{1}{ad-bc}
\begin{pmatrix}
d&-b \\
-c&a \\
\end{pmatrix}
1.線形代数
$ $ 【メモ】 ・固有値と固有ベクトル 特殊なベクトル$\overrightarrow{x}$とその係数λを行列Aに対する固有ベクトル、固有値という。 $A\vec{x}=λ\vec{x}$ $ $ ・固有値分解 ある実数を正方形にならべて作られた行列Aが固有値$\{λ_1},\{λ_2},・・・$と固有ベクトル$\overrightarrow{v_1},\overrightarrow{v_2},・・・$ を持ったとする。この固有値を対角線上に並べた行列𝛬(それ以外の成分は0)とそれに対 応する固有ベクトルを並べた行列Vを用意した場合、以下のように表すことができる。 $𝐴𝑉=𝑉𝛬$ $\Leftrightarrow 𝐴=𝑉𝛬V^{-1}$ このように正方形の行列を3つの行列の積に変換することを固有値分解という $ $ ・特異値分解 固有値分解ができるのは正方行列のみ。正方行列以外は類似した特異値分解を使用する $M\overrightarrow{v}=σ\overrightarrow{v}$ $\Leftrightarrow M^{T}\overrightarrow{v}=σ\overrightarrow{v}$ $ $ このような特殊な単位ベクトルがある場合は以下のように表すことができる。 $𝑀=𝑈𝑆V^{-1}$・特異値分解の応用
画像データのデータ量を削減することが可能
【要点まとめ】
・本章ではAI学習の基礎となる線形代数学について学んだ。線形代数学は行列式を用いる
ことで数式を簡略的に表示することができる。また固有値分解により計算の簡略化をする
ことができる。実際の利用場面として、画像データのデータ量を削減する目的のため特異
値分解が使われることがある。
2.確率・統計
【メモ】
・確率
頻度確率(客観確率)
発生する頻度
・ベイズ確率(主観確率)
信念の度合い
・条件付き確率
ある事象X=xが与えられた下で、Y=yとなる確率
$P(Y=y|X=x)=P(Y=y,X=x)/P(X=x)$
・独立な事象の同時確率
お互いの発生には因果関係のない事象X=xと事象Y=yが同時に発生する確率
$P(Y=y,X=x)=P(X=x)P(Y=y)=P(X=x,Y=y)$
・ベイズ則
一般的に事象X=xと事象Y=yに対して
$P(Y=y|X=x)P(X=x)=P(X=x|Y=y)P(Y=y)$
確率変数と確率分布
・確率変数
事象と結びつけられた数値
事象そのものを指す場合もある
・確率分布
事象の発生する確率の分布
離散値を表に表すことができる
$ $
・期待値
その分布における確率変数の平均の値or「ありえそうな」値
$E(f)=\sum_{k=1}^{n}P(X=x_k)f(X=x_k)$
$E(f)=\int P(X=x_k)f(X=x_k)$
分散と共分散
・分散
データの散らばり具合
データの各々の値が期待値からどれだけズレているか平均したもの
$Var(f)=E((f(X=x)-E(f))^2)=E(f^2(X=x))-(E(f))^2$
・共分散
2つのデータ系列の傾向の違い
正の値を取った場合は似た傾向
負の値を取った場合は逆の傾向
ゼロを取った場合は関係成は乏しい
$Cov(f,g)=E(f(X=x)-E(f))(g(Y=y)-E(g))=E(fg)-E(f)E(g)$
分散と標準偏差
・標準偏差
データや確率変数の散らばり具合を表す数値の一つ
分散の正の平方根で表される
$σ=\sqrt{Var(f)}=\sqrt{E((f(X=x)-E(f))^2)}$
・様々な確率分布
べルヌーイ分布
コイントスの表裏のように2種類の結果のみを得られる実験、試行を0,1で表した分布
マルチヌーイ(カテゴリカル)分布
サイコロのような複数の結果が得られる分布
二項分布
ベルヌーイ分布の多試行版
ガウス分布
釣鐘型の連続分布
【要点まとめ】
・条件付き確率と独立な事象の同時確率は互いに計算により求めることができる。
・ベイズ則を利用することで条件付き確率もしくは独立な事象の同時確率を求めることができる。
・確率や期待値、分散は確率変数と確率分布により表される。
・確率の分布には様々な種類があり、結果の種類数(2個orそれ以上)、
もしくは試行数などの要素により扱える分布が異なる。
3.情報理論
$ $ ・自己情報量 対数の底が2のとき、単位はビット(bit) 対数の底がネイピアのeのとき、単位はビット(nat) $I_x = −log P_x = log W_x $ 但し、$P_x = \frac{1}{W_x}$・シャノンエントロピ
自己情報量の期待値
$H_x = E(I_x) = −E(log(P_x)) = -\sum(P_xlog(P_x))$
・カルバック・ライブラー・ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
$D_{KL}(P||Q) = E{xp}[log\frac{P_x}{Q_x}] = E{xp}[log{P_x}-log{Q_x}] = \sum(P_xlog\frac{P_x}{Q_x})$
$ $・交差エントロピー
KLダイバージェンスの一部を切り出したもの
Qについての自己情報量をPの分布で平均している
$H(P,Q) = H(P) + D_{KL}(P||Q)$
$H(P,Q) = -E{xp}[log{Q_x}] = -\sum(P_xlogQ_x)$
【要点のまとめ】
・11個が10個になることと、2個が1個になることは変化量としては同じ。
しかし、変化の比率として考えることでそれぞれ1/10と1/1となる。
(変化した個数/変化前の個数)
・数が増えるほど増加量は減るので、自己情報量は対数で表すことができる
・機械学習の際はAIにシャノンエントロピはが最大になる値を探させることが多い
・交差園トロピーを使用することで情報を変換できるようになり、
受け取側に自然に渡さなければならないデータの量の作減が可能になった。
以上。