0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

JDLA_E資格の確率統計のまとめ

Posted at

0. はじめに

ディープラーニングでは、大量のデータを扱う為、データの特徴を把握することが重要である。そのための学問として確率統計学がある。
ここではその基礎をまとめておく。

1. 集合

1.1 集合の表現形式

情報の集まりを数学的に表現したいとき、以下のような表現を用いて集合$S$、その内部集合$M$という。

S= \{ a,b,c,d,e,d,g \} \\
M = \{ e,d,g \}  \\
M \subset S \\
a \in S \\
b \in S \\
\\
e \in M \\

1.2 2つ以上の集合の表現形式

2つの集合$A$、$B$がある場合、その組み合わせを集合として表現できる必要がある。

和集合:$ A \cup B $
積集合:$ A \cap B $
補集合:$ \overline{A} $
補集合:$ \overline{A \cup B} = \overline{A} \cap \overline{B} $
補集合:$ \overline{A \cap B} = \overline{A} \cup \overline{B} $

集合.png

集合2.png

2.確率

確率には大きく2つの考え方がある。

頻度確率 ベイズ確率
客観的データで判断 総合的な主観で判断
客観的にデータ処理すれば、どれくらいの頻度かが分かる確率 気持ちの強さ
くじ引きだけの当選確率 多分コロナじゃなくてインフルエンザの確率(インフルの全数データは知らないけど、他の症状も含めて総合的にみた結果)

2.1 確率の定義

集合$A$が発生する確率は以下のように表現する。

Aが起こる確率:P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数} \\
Aが起こらない確率:P(\overline{A}) = 1 - P(A) \\

2.2 条件付き確率

ここで、事象$B$が発生している条件で、、事象$A$が発生する確率は、

A:事故に遭う
B:雨が降っている

P( A | B ) = \frac{P(A \cap B)}{P(B)} =  \frac{n(A \cap B)}{n(B)}\\

と表現される。

集合4.png

重要なPOINT.

日常(全体事象)において、雨と事故が同時に起こる確率は低そうである。
しかし、雨の日(全体事象)において、事故が起こる確率は高そうであると直感的にも分かる。

2.3 同時確率

雨と事故が同時におこるという同時確率は次のように表現する。

P( A \cap B ) = P(A) P(B)\\

重要なPOINT.

事象AとBは、まったく関係性のない独立の事象である。

2.4 和集合の確率

事象$A$か、$B$のどちらかが起こるというような和集合の確率を求める時には、確率の足し算をすればよいが、重複部分が発生するため、最後にそれを引くことを忘れず。

P(A \cup B) = P(A) + P(B) - P(A \cap B) \\
~~~


### 2.5 ベイズの定理

条件付き確率に関して、以下の式が成り立つことをベイズ則という。

~~~math
P(A)P(B|A) = P(B)P(A|B) \\
~~~

入れ替えると、
Aが起こった上でBが起こる条件付き確率は、

~~~math
P(B|A) = \frac{P(B)P(A|B)}{P(A)} \\
~~~

例えば、
事象A:飴を貰える
事象B:笑顔である

P(A):飴を貰える確率: $ \frac{1}{4}$
P(B):笑顔の確率:$ \frac{1}{3}$
P(B|A):飴を貰うと笑顔になる確率:$ \frac{1}{2}$

ここで、笑顔の人が飴を持っている確率 P(A|B)は?

~~~math
P(A|B) = \frac{P(A)P(B|A)}{P(B)} \\
P(A|B) = \frac{\frac{1}{4} \frac{1}{2}}{\frac{1}{3}}\\
P(A|B) = \frac{3}{8}
~~~



# 3. 統計

### 3.1. 統計学とは
統計学には大きく分けて2種類ある。記述統計と推測統計である。ビッグデータを活用した機械学習は記述統計にあたる。

|記述統計|推測統計|
|:----|:----|
|全数データの概要を記述する|母集団から一部を取出し母集団の性質を推測する。|
|ビッグデータ解析|工場歩留り調査|


### 3.2 確率変数と確率分布

統計学では、確率変数と確率分布という概念が存在する。

||確率変数|確率分布|
|:----|:----|:----|
|意味|事象に結び付いた数値|事象発生確率の分布|
|例|コインの表が出る回数|コインの表が出る回数と確率のグラフ|

### 3.3 期待値

事象Xの確率変数がf(x)、その発生確率がP(X)の場合、期待値は、その可能性を全部足し合わせたものである。

~~~math
期待値E(f)=\sum_{k=1}^{n} P(X = x_k) f(X = x_k) \\
~~~


|事象X|x1|x2|
|:----|:----|:----|
|確率変数f(X)|f(x1)|f(x2)|
|確率P(X)|P(x1)|P(x2)|



### 3.4 分散

母集団のデータがどれくらい散らばっているのかを見る数値が分散という。

~~~math
分散 Var(f) = E \biggl( \bigl(  f(X=x) - E(f) \bigr)^2 \biggr) \\
これを展開。E(f)は期待値だから定数扱い。\\
分散 Var(f) = E \biggl( f^{2}(X=x) \biggr) - \biggl( E(f)  \biggr)^2 \\
つまり確率変数の2乗の期待値(平均)から、期待値(平均)の2乗を引くと分散になる。
~~~

また、上記とはことなり、2つの母集団の傾向の違いをみるための共分散というものがある。

~~~math
共分散 Cov(f,g) = E \biggl( \bigl(  f(X=x) - E(f) \bigr)  \bigl(  g(Y=y) - E(g) \bigr) \biggl) \\ 
=E(fg) -E(f)E(g)\\
~~~


### 3.5 標準偏差

分散ではばらつきはわかるが、元のデータとは単位が変わってしまっているので、$ \sqrt{V} $をとって標準偏差を求めよう。

~~~math
\sigma = \sqrt{Var(f)} \\
~~~

### 3.6 確率分布

|確率分布      |分布イメージ| 数式|備考|
|:----        |:----|:----|:----|
|ベルヌーイ分布|コイントスのように2択で決まる事象| $ P(x u) = u^x ( 1-u )^{1-x} $ |xは裏表、uは事象確率|
|マルチヌーイ(カテゴリカル)分布)|サイコロのように場合分けの事象|||
|二項分布|ベルヌーイの多試行|$P ( x  \lambda , n) $ |||
|ガウス分布|釣鐘型の連続分布|$ N(x:u, \sigma ^2 )$||



# 4. 推定

推測統計において母集団を推定する場合には、2種類ある。

* 点推定:平均値等を一点に推定する
* 区間推定:平均値が存在する範囲を推定する

### 4.1 推定量と推定値

推定量は、推定関数とも言われる。推定値は、実際に推定された値のこと。言葉の意味に要注意。

### 4.2 標本平均

母集団からとった標本の平均を標本平均という。
なお、標本数がいくらであっても、その期待値は、母集団の値と同じ。

~~~math
E( \hat{ \theta} ) = \theta  \\

\hat{ \theta} :推定値\\
E( \hat{ \theta} ):標本平均(推定値の期待値)\\
~~~


### 4.3 標本分散

サンプル数が少ない場合、母集団の分散よりもばらつきは小さくなる。

~~~math
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x} )^2
~~~

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?