#0 はじめに
ラビットチャレンジを受講した際に提出が必要となるレポート記事である。
#1.1 線形代数学(行列)
##1.1.1逆行列
行基本変形に対応する行列をかけ、変形に対応する行列を先に計算した場合に作成される行列のこと。逆行列と連立方程式の係数のベクトルを掛け算すると連立方程式の解が得られる。
解がない、又は解が1組に定まらないタイプの連立方程式は逆行列が存在しない。
\begin{pmatrix} a & b\\ c & d\end{pmatrix}
$ad - bc = 0$ のとき逆行列を持たない。
二つのベクトルに囲まれる平行四辺形の面積が0だと逆行列が存在しないとも言える。(初めて知った)
###(ガウスの)掃き出し法
単位行列をくっつけた拡大行列を考える。行基本変形を記録していくと単位行列部分が逆行列になる。
##1.1.2 単位行列
行列に逆行列をかけたもの。
AA^{-1} = A^{-1}A = I
##1.1.3 行列式
ある行列が2つの横ベクトルの組み合わせだと考えた時、
\begin{pmatrix} a & b\\ c & d\end{pmatrix}
=
\begin{pmatrix} \vec{v_{1}}\\ \vec{v_{2}}\end{pmatrix}
で作られる平行四辺形の面積が、逆行列の有無を判別する。
この平行四辺形から求められる面積のことを行列式といい、以下のように表される。
\begin{vmatrix} a & b\\ c & d \end{vmatrix}
=
\begin{vmatrix} \vec{v_{1}}\\ \vec{v_{2}} \end{vmatrix}
###3つのベクトルからなる行列式の展開
\vec{v_{1}} = (a, b, c)\\
\vec{v_{2}} = (d, e, f)\\
\vec{v_{3}} = (g, h, i)
の時、行列式は以下のように展開できる。
\begin{vmatrix} \vec{v_{1}} \\ \vec{v_{2}}\\ \vec{v_{3}} \end{vmatrix}
=
\begin{vmatrix} a & b & c \\ d & e & f \\ g & h & i \end{vmatrix}
=
\begin{vmatrix} a & b & c \\ 0 & e & f \\ 0 & h & i \end{vmatrix}
+
\begin{vmatrix} 0 & b & c \\ d & e & f \\ 0 & h & i \end{vmatrix}
+
\begin{vmatrix} 0 & b & c \\ 0 & e & f \\ g & h & i \end{vmatrix}\\
= a
\begin{vmatrix} e & f \\ h & i \end{vmatrix}
- d
\begin{vmatrix} b & c \\ h & i \end{vmatrix}
+ g
\begin{vmatrix} b & c \\ e & f \end{vmatrix}
#1.2 線形代数学(固有値)
##固有値・固有ベクトル
###求め方
A\vec{x} = λ\vec{x}\\
(A-λI)\vec{x} = \vec{0}\\
\vec{x} ≠ 0\\
\begin{vmatrix} A-λI \end{vmatrix} = 0\\
$λ$ は固有値
$\vec{x}$ は固有ベクトル
先に固有値を求めてから、固有ベクトルの比率を求める。
###固有値分解
正方行列が固有値、固有ベクトルを持つとき、固有値を対角線上に並べた行列Aと、対応する固有ベクトルを並べた行列Vを考えると、
AV = VA\\
A = VAV^{-1}
と変形できる。この変換を固有値分解といい、行列の累乗の計算が簡単になる。
#特異値分解
正方行列以外の固有値分解のようなもの
M\vec{v} = σ\vec{u}\\
M^{T}\vec{u} = σ\vec{v}
上記のようなと特殊な単位ベクトルがあるならば特異値分解ができる。
M = USV^{T}
##特異値の求めかた
MV = US\\
M^{T} = VS^{T}\\
M = USV^{T}\\
M^{T} = VS^{T}U^{T}\\
MM^{T} = USV^{T}VS^{T}U^{T} = USS^{T}U^{T}
単純に転置行列をかけたものを固有値ベクトルを求めると求められる。
逆行列は転置行列で求められる。
$MM^{T}$を固有値分解すれば、その左の特異ベクトルと特異値が求められる。
##特異値分解の利用例
画像データに対して特異値分解をかけてデータ量を削減できる。
(業務で画像データ扱ってるときにこんなことやった気がするなあ。。。)
#2 統計学
##2.1 確率
###頻度確立
発生する頻度のこと。客観確率ともいう
###ベイズ確率
気持ちの強さ(信念の度合い)みたいなこと。主観確率ともいう。
###定義
P(A) = \frac{n(A)}{n(U)} = \frac{すべての事象Aがおこる数}{すべての事象の数}
##2.2 条件付き確率
事象Bが起こった状態で事象Aが起こる確率のこと。
P(A|B) = \frac{P(A\cap B)}{P(B)}
##2.3 独立な事象の同時確立
因果関係のない事象A、Bが同時に発生する確率のこと。
P(A\cap B) = P(A)P(B|A)=P(A)P(B)
##2.4 ベイズ測
P(A)P(B|A) = P(B)P(A|B)
##2.5 記述統計学と推測統計学
###記述統計
集団の性質を要約し、記述すること。
###推測統計
集団から一部を取り出し(標本)、母集団の性質を推測すること。
##2.6 確率変数と確率分布
###確率変数
事象と結びつけられた数値のこと。事象そのものを指すと解釈することも多い。
###確率分布
事象の発生する確率(確率変数に対しての確率)の分布のこと。離散値については表に表すことができる。
##2.7 期待値
分布における、確率変数の平均の値又はありえそうな値のこと。
期待値E(f)は以下のように定義される。
離散値の場合、
E(f) = \sum_{k=1}^{n}P(X=x_{k})f(X=x_{k})
連続値の場合、
E(f) = \int P(X=x_{k})f(X=x_{k})dx
##2.8 分散、共分散、標準偏差
###分散
データの散らばり具合のこと。
2乗の期待値から期待値の2乗を引くことでも求められる。
分散V(f)は以下で定義される。
V(f) = E(f^2(X=x)) - (E(f))^2
###共分散
2個のデータがどれだけ違うか(傾向の違い)のこと
正の場合似た傾向があり、負の場合は逆の傾向がある。
ゼロに近づいている場合、関係性が乏しい。
###標準偏差
分散では2乗しているため、単位が変わってしまっている。
平方根をとることで元の単位に戻したもののこと。
##2.9 様々な確率分布
###ベルヌーイ分布
コイントスのイメージ。出るか出ないかの2択から得られる分布のこと。
確率の割合は等しくなくても扱える。
P(x|μ) = μ^{x}(1-μ)^{1-x}
###マルチヌーイ(カテゴリカル)分布
さいころを転がすイメージ。ベルヌーイ分布が3択以上に増えたもの。
###二項分布
ベルヌーイ分布の試行回数を増やしたものの分布のこと。
P(x|λ, n) = \frac{n!}{x!(n-x)!} λ^{x}(1-λ)^{n-x}
###ガウス分布
釣鐘型の連続分布のこと。
データがこの分布に従っていることを仮定して分析することが多い。
##2.10 推定
母集団を特徴づける母数(平均や分散)を統計学的に推測すること。
###点推定
平均値など1つの値に推定すること。
###区間推定
平均値などが存在する範囲(区間)を推定すること。
##2.11 推定量と推定値
日本語ではあまり区別しないこともある。
###推定量
パラメータ推定に利用する数値の計算方法や計算式(関数)のこと。
###推定値
実際に施行を行った結果から計算した値のこと。
##2.12 標本の一致性と普遍性
###一致性
サンプル数が大きくなれば母集団の値に近づくこと。
###不偏性
サンプル数がいくらであっても期待値は母集団の値と同様であること。
##2.13 標本分散と普遍分散
###標本分散
母分散をnで割ったもの。
###普遍分散
n/(n-1)を標本分散にかけたもの。
#3 情報理論
##自己情報量
そのときの情報がどれだけ珍しいかを示す。
底の数が何でもよく、底の数が2の時単位はビット(bit)になり、底がネイピア数eの時はnatになる。
I(x) = -log(P(x)) = log(W(x))
##シャノンエントロピ
自己情報量の期待値(すべての観測地で平均化したもの)のこと。微分エントロピーともいうが、微分をしているわけではない。
誤差関数の中身に使うと役に立つ。
H(x) = E(I(x)) = -E(log(P(x)) = \sum(P(x)log(P(x)))
##カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P、Qの違いを表す。
Pの珍しさとQの珍しさの違いということを距離のようなもので表したもの。
D_{KL}(P||Q) = \mathbb{E}_{x~P} \begin{bmatrix} log \frac{P(x)}{Q(x)} \end{bmatrix} = \mathbb{E}_{x~P} \begin{bmatrix} logP(x) - logQ(x) \end{bmatrix}
##交差エントロピー
KLダイバージェンスの一部分をとりだしたもの。Qについての自己情報量をPの分布で平均している。
D_{KL}(P||Q) = \sum_x P(x)(-log(Q(x))) - (-log(P(x))) \\
H(P, Q) = \sum_x P(x)logQ(x) \\
H(P, Q) = H(P) + D_{KL}(P||Q)
#4 おわりに
全体的に学生時代に習っている内容だけど、忘れてるといったものが多かった。
統計学については、統計検定を受験してから受講しているため大丈夫であったが、
線形代数は特異値、固有値は殆ど忘れていた。
講義はわかりやすく、スムーズに思い出すことができた。
情報理論については全て初見であったが、例をあげて講義を進めてくれるため、苦にならずに受講できた。
演習問題及びステージテストについては、全て講義の内容から出題され、講義の内容を理解していれば普通に合格できるものだった。
(ステージテスト同じことを2回問われる問題があった気がするけどなんだったんだろう...)