Level3.応用数学②
3-2.確率・統計
・学習の目標
(1)条件付き確率について理解を深める。
(2)ベイズ則の概要を知る。
(3)期待値・分散の求め方を確認する。
(4)様々な確率分布の概要を知る。
3-2-1.確率
【頻度確率(客観確率)】
・発生する頻度
・クジを引いて、当たりの確率を調査すると10%だったという事実 等
【ベイズ確率(主観確率)】
・信念の度合い
・インフルエンザの可能性は40%ですよという診断 等
3-2-2.条件付き確率
・ある事象$X=x$が与えられた条件下で、$Y=y$となる確率
{P\left(Y=y|X=x\right)}=\dfrac {P\left( Y=y,X=x\right)}{P\left(X=x\right)}
※"|"のバーティカルバーを入れるのが大変だった。(笑)
\rightの前の文字列に組み込んじゃえばいいのだね。
余談でした。
3-2-3.独立な事象の同時確率
・お互いの発生には因果関係がないも事象は、それぞれをかければよい。
{P\left(X=x,Y=y\right)}{\quad=P\left(X=x)P(Y=y\right)}{\quad=P\left(Y=y,X=x\right)}
3-2-4.ベイズ則
・一般的に事象$X=x$と事象$Y=y$に対して、
{P\left(X=x|Y=y)P(Y=y\right)}{\quad=P\left(Y=y|X=x)P(X=x\right)}
(例題)
毎日1/4の確率で飴玉をもらう。
{P\left(飴玉\right)}=\frac{1}{4}\\
飴玉をもらうと1/2の確率で笑顔になる。
{P\left(笑顔|飴玉\right)}=\frac{1}{2}\\
街の子供が笑顔でいる確率は1/3である。
{P\left(笑顔\right)}=\frac{1}{3}
条件を整理すると・・・
{P\left(笑顔|飴玉)×P(飴玉\right)}{=P\left(笑顔,飴玉\right)}\\
⇒\quad\frac{1}{2} ×\frac{1}{4}=\frac{1}{8}\\
\\{P\left(笑顔,飴玉\right)}{=P\left(飴玉,笑顔\right)}\\
\\{P\left(飴玉,笑顔\right)}{=P\left(飴玉|笑顔)×P(笑顔\right)}\\
⇒\quad\frac{1}{8}{=P\left(飴玉|笑顔\right)}×\frac{1}{3}\\
したがって、その町の笑顔な子供が、飴玉をもらっている確率は、\\
{P\left(飴玉|笑顔\right)}=\frac{3}{8}である。\\
3-2-5.確率変数と確率分布と期待値
【確率変数】
・事象と結び付けられた数値で、賞金のようなものである。
・事象そのものを指すと解釈する場合が多い。
【確率分布】
・事象の発生する確率の分布(確率変数が出る確率の分布)
・離散値であれば表にできる。
【期待値】
・その分布における確率変数の「平均の値」「ありえそうな値」
| $事象X$ | $X_1$ | $X_2$ | ・・・ | $X_n$ |
| $確率変数f(X)$ | $f(X_1)$ | $f(X_2)$ | ・・・ | $f(X_n)$ |
| $確率P(X)$ | $P(X_1)$ | $P(X_2)$ | ・・・ | $P(X_n)$ |
・期待値$E(f)$
=\sum ^{n}_{k=1}P\left(X=x_k\right)f\left(X=x_k\right)
⇒ $\quad f(x_k)×P(x_k)$で、期待値$(x_k)$を求める。
全てを足し合わせる必要がある。
3-2-6.分散と共分散
【分散】
・1個のデータの散らばり具合
・データの各々の値が、期待値からどのくらいずれているのかを平均したもの。
分散$Var(f)$
E\left( \left( f_{(X=x)} -E_{(f)}\right) ^{2}\right) =E\left( f^{2}_{\left(X=x\right) }\right) -\left( E_{(f)} \right) ^{2}
⇒2乗の平均 - 平均の2乗
【共分散】
・2個のデータ系列の傾向の違い
・正の値をとれば、似た傾向である。
・負の値をとれば、逆の傾向である。
・ゼロになると関係性が乏しくなる。
共分散$Cov(f,g)$
E\left( \left( f_{(X=x)}-E_{(f)}\right)(g_{(Y=y)}-E_{(g)})\right)\\
=E(fg)-E(f)E(g)\\
⇒$f$が平均$E(f)$からどのくらい離れているか。$g$が平均$E(g)$からどのくらい離れているか。
3-2-7.様々な確率分布
【ベルヌーイ分布】
・コイントスのイメージ
・表と裏で出る割合が等しくなくても扱える。(イカサマコイン!!)
P(x|μ)= μ^x(1 - μ)^{1-x}
【マルチヌーイ(カテゴリカル)分布】
・さいころを転がすイメージ
・各面の出る割合が等しくなくても扱える。(イカサマサイコロ!!!)
【二項分布】
・ベルヌーイ分布の多試行版
P(x|λ,μ)= \frac{n!}{x!(n - x)!}λ^x(1 - λ)^{n-x}
【ガウス分布】
・釣鐘型連続分布
N(x;μ,σ^2)= \sqrt {\dfrac {1}{2\pi\sigma^2}} exp(-\dfrac{1}{2\sigma^2}(x - μ)^2)
3-2-8.推定
【推定】
・母集団を特徴づける母数(パラメータ※、平均など)を統計学的に推測すること。
※パラメータは、引数ではなく、母集団の特徴のこと。
・機械学習では、それほど推定を使うことはない。
【点推定】
・平均値などを1つの値に推定すること。
【区間推定】
・平均値などが存在する範囲(区間)を推定すること。
3-2-9.推定量と推定値
【推定量(estimator)】
・パラメータを推定するために利用する数値の計算方法や計算式のこと。推定関数ともいう。
⇒母集団を求めるために使う。
【推定値(estimte)】
・実際に試行を行った結果から計算した値。
・真の値を$\theta$とすると、$\hat{\theta}$(シータハット)のように表す。
ハットが付いていれば、推定していると判断する。
3-2-10.標本平均
【標本平均】
・母集団から取り出した標本の平均値
【一致性】
・サンプル数が大きくなれば母集団の値に近づく。
【不偏性】
・サンプル数がいくらであっても、その期待値は母集団の値と同様。
$E(\hat{\theta}) = \theta$
⇒標本の平均と母集団の値
3-2-11.標本分散と不偏分散
【標本分散】
・サンプルサイズを$n$とする。
\hat{σ}^2 = \frac{1}{n}\sum_{i=1}^n(x_{i} - \bar{x})^2
⇒ 一致性は満たすが、不偏性は満たさない。
(数が少ないと分散が分からない。)
【思考実験】
・たくさんのデータのばらつき具合、少数のデータのばらつき具合
・母集団の分散と、標本の分散を比べると標本分散は小さな値となってしまう。
⇒ $n$が小さいと、ばらつきが少なくなってしまう。
【不偏分散】
・サンプルサイズ$n$が2~3程度の少ない時に良い。
サンプルサイズ$n$が1000や2000など多い場合は重要ではない。
・3つの値の平均が2と分かっている場合、1つ目が0、2つ目が1のとき、3つ目は平均に拘束される。
\begin{align}
s^2 &= \frac{n}{n-1}×\frac{1}{n}\sum_{i=1}^n(x_{i} - \bar{x})^2\\
&= \frac{1}{n-1}\sum_{i=1}^n(x_{i} - \bar{x})^2\\
\end{align}