はじめに
本記事はラビットチャレンジの受講レポートです。
恥ずかしながら、私はラビットチャレンジで初めて学んだ点も少なくありません。
内容の間違いや記事の書き方の作法に問題等あればご指摘いただけますと、幸いです。
■ラビット★チャレンジ
https://ai999.careers/rabbit/
STAGE1 学習内容
Stage1で学習した内容は以下の3項目です。
- 第一章 線形代数
- 第二章 確率・統計
- 第三章 情報理論
第一章 線形代数
###スカラーとベクトルの違い
- スカラー
・1, 2, 3…などのいわゆる普通の数
・四則演算が可能。
- ベクトル
・「大きさ」や「向き」を持つ
・「$\vec{x}$」など矢印で図示される
行列とベクトルの積
左からは行ベクトルを、右からは列ベクトルを掛ける
積が定義されるためには左の列数と右の行数が等しくなければならない。
\begin{pmatrix} 1 & 4 \\ 2 & 3 \\ \end{pmatrix}
\times
\begin{pmatrix} 1 \\3 \\ \end{pmatrix}
=
\begin{pmatrix} 1\times1 + 4\times3\\ 2\times1 + 3\times3 \\ \end{pmatrix}
=
\begin{pmatrix} 13 \\ 11 \\ \end{pmatrix}
行列同士の積
行列とベクトルの積と手法は同じ。
\begin{pmatrix} 1 & 4 \\ 2 & 3 \\ \end{pmatrix}
\times
\begin{pmatrix} 1 & 2 \\ 3 & 4 \\ \end{pmatrix}
=
\begin{pmatrix} 1\times1 + 4\times3 & 1\times2 + 4\times4\\ 2\times1 + 3\times3 & 2\times2 + 3\times4\\
\end{pmatrix}
=
\begin{pmatrix} 13 & 18 \\ 11 & 16 \\ \end{pmatrix}
単位行列
スカラー値でいう1のようなもので、
行列に対して左から掛けても、右から掛けても元の行列には何の影響もない。
(講義ではよく$I$を用いて表現される)
AI = IA\\
I1 = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ \end{pmatrix}\\
I2 = \begin{pmatrix} 1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 1 \end{pmatrix}
逆行列
スカラー値でいう逆数のようなもの。
ある行列に対して、その行列の逆行列を掛けると単位行列になる。
ただし、行列式が0のとき、逆行列は存在しない。
(ちなみに$ A^{-1} $は「Aのマイナス1乗」ではなく「Aインバース」と読む)
AA ^ {-1} = A ^ {-1} A = I\\
逆行列の求め方
逆行列は掃き出し法によって求めることが出来る。
例)A =
\begin{pmatrix}
1 & 4 \\
2 & 6 \\
\end{pmatrix}の時、A^{-1}を求める。\\
(A|I)=\left(\begin{array}{cc|cc}
1 & 4 & 1 & 0 \\
2 & 6 & 0 & 1 \\
\end{array}\right)
2行目を1/2する。
(A|I)=\left(\begin{array}{cc|cc}
1 & 4 & 1 & 0 \\
1 & 3 & 0 & \frac{1}{2} \\
\end{array}\right)
2行目の-1倍を1行目に加える。
(A|I)=\left(\begin{array}{cc|cc}
0 & 1 & 1 & -\frac{1}{2} \\
1 & 3 & 0 & \frac{1}{2} \\
\end{array}\right)\\
1行目の-3倍を2行目に加える。
(A|I)=\left(\begin{array}{cc|cc}
0 & 1 & 1 & -\frac{1}{2} \\
1 & 0 & -3 & 2 \\
\end{array}\right)\\
1行目と2行目を入れ替える。
(A|I)=\left(\begin{array}{cc|cc}
1 & 0 & -3 & 2 \\
0 & 1 & 1 & -\frac{1}{2} \\
\end{array}\right)\\
こうして右側の行列式が逆行列として求めることが出来た。
A^{-1} =\left(\begin{array}
-3 & 2 \\
1 & -\frac{1}{2} \\
\end{array}\right)\\
行列式
行列の大きさの様なもの。
正方行列に対して決まるスカラー。
2次元で考えたときは、平行四辺形の面積の様にイメージできる。
2×2の場合、次の様に行列式を求めることができる。
\begin{vmatrix}
a & b \\
c & d \\
\end{vmatrix} = a\times d- b \times c
線形代数学(固有値)
ある行列Aに対して,以下のような式が成り立つような,特殊なベクトル $\vec{x}$と,右辺の係数λがある。
行列Aとその特殊なベクトル $\vec{x}$の積は,ただのスカラーの数λとその特殊なベクトル $\vec{x}$との積と同じ値になる。
この特殊なベクトル $\vec{x}$とその係数λを,行列Aに対する,固有ベクトル,固有値という。
$$ A\vec{x} = λ\vec{x}…① $$
固有値と固有ベクトルの求め方
②の式は$\vec{x}$でまとめる為、①の式からλに単位行列を掛けたもの。
$\vec{x}$が0ではなく、かつ全て0になるようなベクトルを作りたい。
逆行列が存在してしまうと$\vec{x}$が0になり③の式を満たさなくなる為、逆行列を持たないと仮定する。
そこで逆行列を持たないものとして、行列式を使用する。
(A-λI)\vec{x} = \vec{0}…②\\
\vec{x} \neq \vec{0}…③\\
\begin{pmatrix}
1 & 4 \\
2 & 3 \\
\end{pmatrix} の固有値と固有ベクトルを求める。\\
\begin{vmatrix} A - λI \end{vmatrix} = 0\\
\begin{vmatrix} 1 - λ & 4 \\ 2 & 3 - λ \end{vmatrix} = 0\\
(1 - λ)(3 - λ) - 4 \times 2 = 0\\
λ = 5or-1
λ = 5or-1を「$\begin{vmatrix} A - λI \end{vmatrix} = 0$」 に代入する。
※λ=5の場合
\begin{pmatrix} 1 & 4\\ 2 & 3 \end{pmatrix}
\begin{pmatrix} x_1\\ x_2 \end{pmatrix}
=5\begin{pmatrix} x_1\\ x_2 \end{pmatrix}
…よって x1 = x2\\
※λ=-1の場合
\begin{pmatrix} 1 & 4\\ 2 & 3 \end{pmatrix}
\begin{pmatrix} x_1\\ x_2 \end{pmatrix}
=-1\begin{pmatrix} x_1\\ x_2 \end{pmatrix}
…よって x1 = -2x2\\
…したがって
λ=5のとき、\vec{x}= \begin{pmatrix} 1\\ 1 \end{pmatrix}の定数倍\\
λ=-1のとき、\vec{x}= \begin{pmatrix} 2\\ -1 \end{pmatrix}の定数倍
固有値分解
ある実数を正方形にならべて作られた行列Aが
固有値$λ_1$,$λ_2$,・・・と固有ベクトル$\vec{x}_1$,$\vec{x}_2$,,・・・を持ったとする。
この固有値を対角線上に並べた行列(それ以外の成分は0)
\Lambda =
\left(
\begin{matrix}
\lambda_1 & & \\
& \lambda_2 & \\
& & \ddots
\end{matrix}
\right)
と、それに対応する固有ベクトルを並べた行列
V =
\left(
\begin{matrix}
& & \\
\vec{v}_1 & \vec{v}_2 & \cdots\\
& &
\end{matrix}
\right)
を用意したとき、それらは
$$ AV = VA $$
と関係付けられる。したがって
$$ A = VAV^{-1} $$
と変形できる。
このように正方形の行列を上述の様な3つの行列の積に変換することを固有値分解という。
この変換によって行列の累乗の計算が容易になる等の利点がある。
固有値分解の具体例
\left(
\begin{matrix}
1 & 4 \\
2 & 3 \\
\end{matrix}
\right)
=
\left(
\begin{matrix}
1 & 1 \\
1 & - \frac{1}{2} \\
\end{matrix}
\right)
\left(
\begin{matrix}
5 & 0 \\
0 & -1 \\
\end{matrix}
\right)
\left(
\begin{matrix}
\frac{1}{3} & \frac{2}{3} \\
\frac{2}{3} & -\frac{2}{3} \\
\end{matrix}
\right)
特異値分解
固有値分解は正方行列に限られるが、
正方行列ではない(m×n)行列MMにおいて、以下の形で分解することを特異値分解という。
$$M=USV^{-1}$$
・U:各列が$MM^T$の固有ベクトルである行列
・S:対角成分が$MM^T$の固有値の平方根である行列
・V:各列が$M^TM$の固有ベクトルである行列
第二章 確率・統計
確率
確率には大きく分けて以下の2種類が存在する。
※ただし、種類は異なっても一度確率として算出すれば、
どちらも等しく計算することが可能。
・頻度確立(客観確率)
発生する頻度。
例)10本のくじの内、当たりは2本だからこのくじの当選確率は20%だ。
・ベイズ確率(主観確率)
信念の度合い。
例)~が発生する確率は30%程度だろう。
同時確率と条件付確率
・同時確率
互いの発生には因果関係のない事象Aと自称Bが同時に発生する確率。
Aが発生する確率 × Aの条件下でBが発生する確率
→Aが発生する確率 × Bが発生する確率
P(A \cap B) = P(A)P(B \mid A) = P(A)P(B)
・条件付確率
ある事象Aが与えられたもとで、事象Bが発生する確率。
同時確率よりも全体数が狭くなる為、同時確率よりも確率が高くなる。
P(B \mid A) = \frac{P(A \cap B)}{P(A)}
ベイズ則
条件付確率の式変換を指す。
Aを原因、Bを結果とすると「Aが原因でBが発生する条件付き確率」は
P(B \mid A) = \frac{P(A \cap B)}{P(A)}\\
ここでAとBを入れ替えてみると「Bが発生した条件下でAが原因だった条件付き確率」となる。
\color{red}{P(A \mid B)} = \frac{P(A \cap B)}{\color{red}{P(B)}}\\
ここに$P(A \cap B) = P(A)P(B \mid A)$を代入してみる。
すると、「Bが発生したとき、Aが原因だった確率」と読み取れる。
P(A \mid B) = \frac{\color{red}{P(A)P(B \mid A)}}{P(A)}\\
確率変数
事象と結びつけられた数値
例) 表を1、裏を0としたとき表が2回、裏が2回出たとき→(1 + 1 + 0 + 0) = 2
確率分布
事象が発生する確率の分布。
離散値であれば、表に示すことが出来る。
例)「コインを4枚投げた時の表の枚数を記録する」ということを1200回試行した
事象 | 表:4回/裏:0回 | 表:3回/裏:1回 | 表:2回/裏:2回 | 表:1回/裏:3回 | 表:0回/裏:4回 |
---|---|---|---|---|---|
確率変数 | 4 | 3 | 2 | 1 | 0 |
事象が発生した回数 | 75 | 300 | 450 | 300 | 75 |
事象と対応する確率 | $\frac{1}{16}$ | $\frac{4}{16}$ | $\frac{6}{16}$ | $\frac{4}{16}$ | $\frac{1}{16}$ |
期待値
その分布における、確率変数の「ありえそう」な値
※平均値との違い:全てを足し合わせて個数で割ったものが平均値。
必ずしもすべての個数が分かるとは限らない。
$$ 離散的な確率分布における期待値E(f):\sum_{k=1}^{n} P(X =x_k)f(X = x_k) $$
$$ 連続する値だった時の期待値E(f):\int P(X =x)f(X = x) dx $$
###分散
データの散らばり具合
※なぜ2条する必要が有るのか
\begin{align}
分散 Var(f)
=E\Bigl((f(X=x) - E(f) )^2 \Bigl)\\
=E(f(X=x)^2) - E(f) )^2
\end{align}
###共分散
\begin{align}
共分散Cov(f, g)
&=E\Bigl(\bigl(f(X=x)-E(f)\bigl) - \bigl((g(Y=y)-E(g)\bigl)\Bigl)\\
&=E(fg) - E(f)E(g)
\end{align}
確率分布
・ベルヌーイ分布
例)コイントスのイメージ
p(x|μ) = μ^x(1-μ)^{1-x}\\
※μ:平均の値(確率)
・マルチヌーイ分布(カテゴリカル分布)
例)サイコロを転がすイメージ
第三章 情報理論
情報量
「ある事象が起きた時にどのくらいめずらしい事象か」という尺度。
確率が高くなるほど、情報量が少なくなる。
情報量は減少関数である。
例)
サイコロで1を出す確率(1/6) $ \color{blue}{<}$ コインで表を出す確率(1/2)
「サイコロで1を出す」ということの情報量 $ \color{red}{>} $ 「コインで表を出す」ということの情報量
自己情報量
事象そのものの情報量をのこと。
事象xの自己情報量は以下の式で表す。
I(x) = -log_{2}P(x)
例)「コインで表を出す」こと(2分の1)の情報量
I(x) = -log_{2}\frac{1}{2} = 1
例)「サイコロで1を出す」こと(6分の1)の情報量
I(x) = -log_{2}\frac{1}{6} = 2.58....
**→「サイコロで1を出す」ということの情報量(2.58...) $ \color{red}{>} $ 「コインで表を出す」ということの情報量(1)**となる。
平均情報量(シャノンエントロピー)
事象が複数発生した場合に
各事象の情報量に各事象の起こりにくさで重み付けを行った上で計算した情報量。
\begin{align}
H(x)
&= E\bigl(I(x)\bigl)\\
&=-E\Bigl(log\bigl(P(x)\bigl)\Bigl)\\
&=-\sum \Bigl(P(x)log\bigl(P(x)\bigl)\Bigl)\\
\end{align}