第2章 確率・統計
-
確率とは
頻度確率とベイズ確率
条件付き確立と同時確立 -
確率で使う値・概念
確率変数
期待値
分散と共分散
標準偏差 -
様々な確率分布
ベルヌーイ分布
マルチヌーイ(多項)分布
二項分布
ガウス分布 -
推定とは
点推定と区間推定
推定量(estimator)と推定値(estimate) -
標本とは
標本平均
標本分散と不偏分散
確率とは
P(A) = \frac{事象Aが起こる数}{全事象の数} = \frac{n(A)}{n(U)}
と表すことができる。
頻度確率とベイズ確率
確率には、頻度確立とベイズ確立が存在する。
この二つの違いについて注目して説明していきたい。
頻度確率
パラメータが定数であり、データが変数を用いて確率を求める概念を頻度確率という。
手元にあるパラメータによって、どのようなデータなのかを予測する。
ベイズ確率
パラメータが変数であり、データが定数を用いて確率を求める概念をベイズ確率という。
手元にあるデータは、どのようなパラメータに基づく母集団から得られたのかを予測する。
条件付き確立と同時確立
条件付き確率
条件付き確率は、ある事象Xが与えられた下である事象Yとなる確率である。
条件付き確率には、ベイズ則という考え方がある。それは、
\begin{align}
Aの確率×Aの条件下でBの確率& = Bの確率×Bの条件下でAの確率 \\
\\
P(A) * P(B|A)& = P(B) * P(A|B)
\end{align}
というものである。
####同時確率
同時確立は、お互いに因果関係のないある事象XとYが同時に起こる確率である。
確率で使う値・概念
###確率変数
確率変数は、ある試行に対してその値をとる確率が定まる変数のことである。
試行の結果として起こる事象に結びつけられた数値と言い換えることもできる。
期待値
確率変数の全ての値に確率の重みをつけて足し合わせたものが期待値である。
E(f) = \sum{P(X=x_k) \ f(X = x_k)}
P(X = xk)は確率、f(X = xk)は確率変数のことである。
### 分散と共分散 #### 分散 分散はデータの散らばり具合を表したものである。つまり、データが期待値からどれだけ離れているかを算出している。
\begin{align}
Var(f)& = E((f(X = x)-E(f))^2) \\
& = E(f^2(X = x)-(E(f))^2
\end{align}
共分散
2つのデータ系列の傾向の違いを表したものが共分散である。
\begin{align}
cov(fig)& = E((f(X = x)-E(f))(g(Y=y) - E(g))) \\
& = E(fg)-E(f)E(g)
\end{align}
### 標準偏差 分散は値を2乗しているので、元のデータの単位とは一致しない。正確な散らばり具合を見るためには、元の単位を求めなければならない。そのために、2乗の逆演算である平方根を求める。標準偏差とは、分散を平方根にした値である。 つまり、
\begin{align}
\sigma
&= \sqrt{var(f)} \\
&= \sqrt{E((f(X=x)-E(f))^2)} \\
&= \sqrt{E(f^2(X = x)-(E(f))^2}
\end{align}
様々な確率分布
ベルヌーイ分布
2種類のみの結果しか得られないような結果を0と1で表した分布である。
1である確率がPのとき、0である確率は1−P
0である確率がµのとき、1である確率は1ーµ
P(x | µ) = µ^x(1-µ)^{1-x}
### マルチヌーイ(多項)分布 ベルヌーイ分布は、結果が2種類しかないときに用いられる分布だが、マルチヌーイ分布は結果がたくさんある試行において用いられる分布である。
### 二項分布 二項分布は、ベルヌーイ試行が繰り返し行われることの成功回数の分布である。
P(x|\lambda,n) = \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}
ガウス分布
ガウス分布は正規分布に収束される。
N(x;µ,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x - µ)^2)
推定
推定とは
母集団を特徴付ける母数を統計学的に推測することである。
母集団から数値を抽出したものが標本であり、その標本を用いて推定する。
推定は、推定量を用いて推定値を導き出すことである。
点推定と区間推定
点推定
点推定は、平均値などの母数を1つの値に推定することである。
区間推定
区間推定は、平均値などが存在する範囲を推定することである。
推定量(estimator)と推定値(estimate)
推定量(estimator)
推定量は、パラメータを推定するために利用する数値の計算方法や計算式のことである。
これは推定関数ともいう。
推定値(estimate)
推定値は、実際に試行を行った結果から計算した値である。
求めた推定値には^をつける。
標本
標本平均
標本平均
標本とは、母集団の全部、もしくは一部を抽出したものである。
標本平均は、母集団から取り出した標本の平均値であり、一致性と不偏性によってバランスが取られている。
標本分散と不偏分散
標本分散
\sigma^2 = \frac{1}{n}∑(x_i - \bar{x})^2
母集団に比べ、標本数が少ない時は標本分散の値も母分散に比べて小さくなる。それを等しくなるよう補正するために、不偏分散を用いる。
不偏分散
S^2 = \frac{1}{n-1}∑(x_i - \bar{x})^2