※以下、個人的な勉強のためのレポートです。
※間違い多々あると存じますが、現在の理解レベルのスナップショットのようなものです。
※勉強のためWebサイトや書籍からとても参考になったものを引用させていただいております。
確率論の基礎用語
- サイコロを振ることを例に・・・
- サイコロを振ることを試行(trial)、その結果を事象(event)
- 出た目を確率変数(random variable)
- サイコロの目は、1の次は2であり、1.1や1.125…のような値は取らない⇒離散的
- "サイコロの目"や"コインの表裏"のような場合を、離散的な確率変数(discrete random variable)
- サイコロの各目が出る確率(probability)はどれも$\frac{1}{6}$、6つの目の出る確率の合計は100%、これらの関係を数式で表すと、
- 「i」の目が出る確率を$p_i$とすると、$p_1=p_2=p_3=p_4=p_5=p_6=\frac{1}{6}$
- $\sum_{i=1}^{6} p_i =p_1+p_2+p_3+p_4+p_5+p_6=1$
- この$p_1$から$p_6$までの集合{${p_k}$}を確率分布(probability distribution)
- サイコロの目の値は6つのみ(6面ダイスの場合w)、これを母集団(population)
- サイコロを投げて実際に出た目が3、5、6だった・・・標本(sample)
- 標本からなる集団・・・標本集団
- 標本の個数・・・標本の大きさ
期待値・分散
##期待値
起こりうる値の平均値
サイコロの目の値と、その目が出る確率を掛けた値をすべて足したものを期待値(expectation)
ギャンブルの期待値https://casino777japan.com/ranking/expected-value/
そのギャンブルの参加費(宝くじなら券の価格)が期待値以上ならば、払う金額より得られるお金の期待値が高い・・・と言える。
しかしながら胴元の運営費が発生しないギャンブルはないだろうから、複数の宝くじがあった場合、どの宝くじが良心的(?)かという比較には用いることができるかもしれない。
〇確率変数Xの期待値(離散値の場合)
E(X)=\sum_{k=1}^{n} x_i p_i
〇確率変数Xの期待値(連続値の場合)
E(X)=\int_{-∞}^{∞} x f(x) dx
※$f(x)$確率密度関数
##分散
サイコロの出目の確率分布は、1から6まですべて$\frac{1}{6}$。このようなふらっと分布を一様分布という。一方で2つのサイコロの出目の和のように、7が一番出やすく(1+6/2+5/3+4/4+3/5+2/6+1のように合計が7になる組み合わせは多い)、2(組み合わせは1+1のみ)や12(組み合わせ6+6のみ)は出にくい。このように2つのサイコロの出目の和を2~12まで横軸に並べ、縦軸に確率をとった場合は、サイコロ一つの出目のように一様とはならず、中央が高くなり両裾が低くなる。カタンでは7が山賊の出目になっている。
分布には、平均値を中心にして広く裾野が広いものもあれば、狭いものもある。この分布の広がりを**分散(variance)**と呼ぶ。
##共分散
2種類のデータX、Yが得られたとき、その2種類のデータの関係を示す指標に**共分散(covariance)**がある。定義はXの偏差×Yの偏差
共分散$Cov(X,Y)=E[(X−μX)(Y−μY)]$
※$ux$はXの平均、$uy$はYの平均。
この共分散を調べることで、この2つのデータについて以下の関係性を調べることができる。
〇共分散が大きい、正の値⇒相関関係があり、Xが大きいときYも大きいという関係がある
〇共分散が0に近い⇒XとYは互いに独立。関係性が乏しい
〇共分散が小さい、負の値⇒相関関係があり、「Xが大きいときYは小さい」または「Xが小さいときYは大きい」という関係がある
ベイズ統計学
結果が偶然に左右されるものを扱う確率論に、古典統計学(頻度論、頻度主義)とベイズ統計学とがある。
※他にもあるかもしれないが・・・
〇恣意性を排除した統計学:頻度論
〇初期設定として事前確率(仮定する確率)をおき、ベイズの定理を出発点として発展させたベイズ統計学
ベイズ統計は、元になるデータが不十分でも、”ある事態が発生する確率”を最初に設定(=事前確率を設定)した後、さらなる情報が得られる度に”ある事態が発生する確率”(=事後確率)を更新していき、本来起こるであろう事象の確率(主観確率)を導き出すことができる(ベイズ更新)。
近年、ベイズ統計学が注目を集める理由として機械学習、深層学習との親和性があげられる。ベイズモデルはデータを追加、再学習することで自ら精度を上げていくモデルであることから、機械学習と相性が良い。ex)迷惑メールの判定、ウィルス判定等
ベイズの定理
〇ベイズの定理
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
$BのもとでAが起こる確率=\frac{AのもとでBの起こる確率×Aの起こる確率}{Bの起こる確率}$
〇ベイズの定理の導出
ex)ジョーカーを除くトランプ52枚からハートかつ絵柄のカードを引く確率
P(A)ハートのカードを引く確率
P(B)絵柄のカードを引く確率
P(A∩B)ハートかつ絵柄のカードを引く確率:同時確率
P(A|B)絵柄のカードを引いたという条件下でそのカードがハートである確率:条件付き確率
乗法定理を用いて表すと、
$P(A\cap B)=P(A)P(B|A)$
$P(A\cap B)$は、順番を入れ替えて
$P(A\cap B)=P(B|A)P(A)$とも書ける
"ハートのカードを引いたという条件下でそのカードが絵柄であある確率"というように読み替えても、$P(A\cap B)=P(A)P(B|A)$は成り立つことから、
$P(A\cap B)=P(A|B)P(B)$
$P(B|A)P(A)=P(A|B)P(B)$
両辺をP(B)で割って式を整理すると、
$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$
確率分布
日本工業規格「確率変数がある値となる確率,又はある集合に属する確率を与える関数」
確率分布の代表的なモデルを知っておくことにより、およそ値がどの範囲に収まるのかを推測することができる。⇔範囲に収まらない値が連続する場合、異常値の検出にも使える
正規分布
平均値に高いがあり、平均値から左右に離れれば離れるほど数が少なくなるようなデータを表す確率分布
正規分布の性質
平均 ± 標準偏差 の間にデータの約68.3%が含まれる
平均 ± 2 × 標準偏差 の間にデータの約95.4%が含まれる
平均 ± 3 × 標準偏差 の間にデータの約99.7%が含まれる
ベルヌーイ分布
「成功か失敗か」「表か裏か」「勝ちか負けか」のように2種類のみの結果しか得られないような実験、試行(ベルヌーイ試行)の結果を0と1で表した分布
※コインの表裏が良く例えに出てくるが、表裏必ずしも50%ずつのものでなくても良い
二項分布
二項分布はベルヌーイ試行を独立にn回繰り返したときに、生起確率がpである片方の結果がx回生じる確率が従う分布であるのに対し、ベルヌーイ分布は試行回数が1回 (n=1) のみのときにおいて片方の結果が生起する確率が従う分布
ベルヌーイ分布の性質
試行回数nが増えると極大値が右方向へずれて裾野が広がる
$\frac{n}{2}$が平均値(期待値)
nの増加にともなって平均値とその周辺値との確率の差が小さくなっていく。つまり硬貨を 20 回投げたとき、表が 10 枚出る確率も、9 枚出る確率も、それほど差はない
マルチヌーイ(カテゴリカル)分布
コインの表裏のように2値ではなく、多値をとるものの分布
ポアソン分布
(どの時点でも同様な起こりやすさでランダムに起こる現象と仮定した場合に)「単位時間あたりに平均 λ 回起こる現象が、単位時間に k 回起きる確率」を表すのに使われる確率分布
ポアソン分布は二項分布の連続時間版とも
電話加入者回線のアーランモデルなど
ガウス分布
左右対称の連続型の確率分布。正規分布は最も代表的な分布の一つ
引用
「高校数学でわかる統計学」竹内淳
「図解・ベイズ統計「超」入門」涌井貞美
「史上最強 これならわかる!ベイズ統計学」涌井良幸・涌井貞美
確率・統計用語(和英)http://www.fhonyaku.jp/members/dictionary/toukei1.htm
ベイズ統計学と何なのかhttp://ill-identified.hatenablog.com/entry/2017/03/17/025625
ベイズ統計とはhttps://udemy.benesse.co.jp/ai/bayesian-statistics.html
Np-Urのデータ分析教室http://www.randpy.tokyo/entry/normal_distribution
ベルヌーイ分布のわかりやすいまとめhttps://to-kei.net/distribution/bernoulli-distribution/
2 項分布(ベルヌーイ分布)の性質と BINOM.DIST関数を用いた計算https://excelmath.atelierkobato.com/binomial-distribution/
ポアソン分布とは何かhttps://atarimae.biz/archives/7372
ラビットチャレンジhttp://ai999.careers/rabbit/