0. はじめに
ディープラーニングでは、大量のデータを扱う為、データの特徴を把握することが重要である。そのための学問として確率統計学がある。
ここではその基礎をまとめておく。
1. 集合
1.1 集合の表現形式
情報の集まりを数学的に表現したいとき、以下のような表現を用いて集合$S$、その内部集合$M$という。
S= \{ a,b,c,d,e,d,g \} \\
M = \{ e,d,g \} \\
M \subset S \\
a \in S \\
b \in S \\
\\
e \in M \\
1.2 2つ以上の集合の表現形式
2つの集合$A$、$B$がある場合、その組み合わせを集合として表現できる必要がある。
和集合:$ A \cup B $
積集合:$ A \cap B $
補集合:$ \overline{A} $
補集合:$ \overline{A \cup B} = \overline{A} \cap \overline{B} $
補集合:$ \overline{A \cap B} = \overline{A} \cup \overline{B} $
2.確率
確率には大きく2つの考え方がある。
頻度確率 | ベイズ確率 |
---|---|
客観的データで判断 | 総合的な主観で判断 |
客観的にデータ処理すれば、どれくらいの頻度かが分かる確率 | 気持ちの強さ |
くじ引きだけの当選確率 | 多分コロナじゃなくてインフルエンザの確率(インフルの全数データは知らないけど、他の症状も含めて総合的にみた結果) |
2.1 確率の定義
集合$A$が発生する確率は以下のように表現する。
Aが起こる確率:P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数} \\
Aが起こらない確率:P(\overline{A}) = 1 - P(A) \\
2.2 条件付き確率
ここで、事象$B$が発生している条件で、、事象$A$が発生する確率は、
A:事故に遭う
B:雨が降っている
P( A | B ) = \frac{P(A \cap B)}{P(B)} = \frac{n(A \cap B)}{n(B)}\\
と表現される。
重要なPOINT.
日常(全体事象)において、雨と事故が同時に起こる確率は低そうである。
しかし、雨の日(全体事象)において、事故が起こる確率は高そうであると直感的にも分かる。
2.3 同時確率
雨と事故が同時におこるという同時確率は次のように表現する。
P( A \cap B ) = P(A) P(B)\\
重要なPOINT.
事象AとBは、まったく関係性のない独立の事象である。
2.4 和集合の確率
事象$A$か、$B$のどちらかが起こるというような和集合の確率を求める時には、確率の足し算をすればよいが、重複部分が発生するため、最後にそれを引くことを忘れず。
P(A \cup B) = P(A) + P(B) - P(A \cap B) \\
~~~
### 2.5 ベイズの定理
条件付き確率に関して、以下の式が成り立つことをベイズ則という。
~~~math
P(A)P(B|A) = P(B)P(A|B) \\
~~~
入れ替えると、
Aが起こった上でBが起こる条件付き確率は、
~~~math
P(B|A) = \frac{P(B)P(A|B)}{P(A)} \\
~~~
例えば、
事象A:飴を貰える
事象B:笑顔である
P(A):飴を貰える確率: $ \frac{1}{4}$
P(B):笑顔の確率:$ \frac{1}{3}$
P(B|A):飴を貰うと笑顔になる確率:$ \frac{1}{2}$
ここで、笑顔の人が飴を持っている確率 P(A|B)は?
~~~math
P(A|B) = \frac{P(A)P(B|A)}{P(B)} \\
P(A|B) = \frac{\frac{1}{4} \frac{1}{2}}{\frac{1}{3}}\\
P(A|B) = \frac{3}{8}
~~~
# 3. 統計
### 3.1. 統計学とは
統計学には大きく分けて2種類ある。記述統計と推測統計である。ビッグデータを活用した機械学習は記述統計にあたる。
|記述統計|推測統計|
|:----|:----|
|全数データの概要を記述する|母集団から一部を取出し母集団の性質を推測する。|
|ビッグデータ解析|工場歩留り調査|
### 3.2 確率変数と確率分布
統計学では、確率変数と確率分布という概念が存在する。
||確率変数|確率分布|
|:----|:----|:----|
|意味|事象に結び付いた数値|事象発生確率の分布|
|例|コインの表が出る回数|コインの表が出る回数と確率のグラフ|
### 3.3 期待値
事象Xの確率変数がf(x)、その発生確率がP(X)の場合、期待値は、その可能性を全部足し合わせたものである。
~~~math
期待値E(f)=\sum_{k=1}^{n} P(X = x_k) f(X = x_k) \\
~~~
|事象X|x1|x2|
|:----|:----|:----|
|確率変数f(X)|f(x1)|f(x2)|
|確率P(X)|P(x1)|P(x2)|
### 3.4 分散
母集団のデータがどれくらい散らばっているのかを見る数値が分散という。
~~~math
分散 Var(f) = E \biggl( \bigl( f(X=x) - E(f) \bigr)^2 \biggr) \\
これを展開。E(f)は期待値だから定数扱い。\\
分散 Var(f) = E \biggl( f^{2}(X=x) \biggr) - \biggl( E(f) \biggr)^2 \\
つまり確率変数の2乗の期待値(平均)から、期待値(平均)の2乗を引くと分散になる。
~~~
また、上記とはことなり、2つの母集団の傾向の違いをみるための共分散というものがある。
~~~math
共分散 Cov(f,g) = E \biggl( \bigl( f(X=x) - E(f) \bigr) \bigl( g(Y=y) - E(g) \bigr) \biggl) \\
=E(fg) -E(f)E(g)\\
~~~
### 3.5 標準偏差
分散ではばらつきはわかるが、元のデータとは単位が変わってしまっているので、$ \sqrt{V} $をとって標準偏差を求めよう。
~~~math
\sigma = \sqrt{Var(f)} \\
~~~
### 3.6 確率分布
|確率分布 |分布イメージ| 数式|備考|
|:---- |:----|:----|:----|
|ベルヌーイ分布|コイントスのように2択で決まる事象| $ P(x u) = u^x ( 1-u )^{1-x} $ |xは裏表、uは事象確率|
|マルチヌーイ(カテゴリカル)分布)|サイコロのように場合分けの事象|||
|二項分布|ベルヌーイの多試行|$P ( x \lambda , n) $ |||
|ガウス分布|釣鐘型の連続分布|$ N(x:u, \sigma ^2 )$||
# 4. 推定
推測統計において母集団を推定する場合には、2種類ある。
* 点推定:平均値等を一点に推定する
* 区間推定:平均値が存在する範囲を推定する
### 4.1 推定量と推定値
推定量は、推定関数とも言われる。推定値は、実際に推定された値のこと。言葉の意味に要注意。
### 4.2 標本平均
母集団からとった標本の平均を標本平均という。
なお、標本数がいくらであっても、その期待値は、母集団の値と同じ。
~~~math
E( \hat{ \theta} ) = \theta \\
\hat{ \theta} :推定値\\
E( \hat{ \theta} ):標本平均(推定値の期待値)\\
~~~
### 4.3 標本分散
サンプル数が少ない場合、母集団の分散よりもばらつきは小さくなる。
~~~math
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x} )^2
~~~