Juliaで学ぶ確率変数(1) - 確率変数の定義 - Qiita
Juliaで学ぶ確率変数(11) - まとめ - Qiita
確率変数を勉強中ですが、**「確率統計」(森北出版)は数学的に明確な定義がしっかり書かれているので、これを中心に勉強しています。あわせて「統計学入門」(東京大学出版会)と「確率論入門」(ちくま学芸文庫、赤攝也)**も併読しています。
本記事は、それらの教科書を読みながら、実際に例題や問題をJuliaで解いていく試みです。Juliaの連続型確率変数のライブラリのドキュメントです。 ==>Distributions/Univariate/ContinuousDistributions
#1.正規分布(ガウス分布)N(μ,σ)
\begin{align}
\\
\\
&*** 正規分布はN(\mu,\sigma)ともN(\mu,\sigma ^2)とも書かれるようですが、\\
&*** Juliaのドキュメントでは前者を採っているので従います。\\
\\
&X: \Omega \rightarrow R (実数の集合)\\
\\
&\muは実数の定数、\sigmaは正の定数として、確率密度関数f(x)が、\\
&以下のように書けるとき、確率変数Xは正規分布N(\mu,\sigma)に従うという。\\
\\
&f(x) = \frac{1}{\sqrt {2\pi \sigma^2}} \exp\Biggl(-\frac{(x-\mu)^2}{2\sigma^2}\Biggr) \qquad (-\infty<x<\infty)\\
\\
\\
\\
&ガウス積分の公式より以下の3式が導かれる。\\
&E[X] = \int_{-\infty}^{\infty} xf_X(x) dx =\mu\\
&V[X] = \int_{-\infty}^{\infty} (x - E[X])^2 f_X(x) dx =\int_{-\infty}^{\infty} (x - \mu)^2 \frac{1}{\sqrt {2\pi \sigma^2}} \exp\Biggl(-\frac{(x-\mu)^2}{2\sigma^2}\Biggr)=\sigma^2\\
&p(\Omega)=\int_{-\infty}^{\infty} f(x) dx =\int_{-\infty}^{\infty} \frac{1}{\sqrt {2\pi \sigma^2}} \exp\Biggl(-\frac{(x-\mu)^2}{2\sigma^2}\Biggr) = 1\\
\\
\\
&とくに、\mu = 0、\sigma^2=1の場合を標準正規分布という。\\
&f(x) = \frac{1}{\sqrt {2\pi}} \exp\Biggl(-\frac{x^2}{2}\Biggr) \qquad (-\infty<x<\infty)\\
\\
&\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \\
\end{align}
以上にまとめたことの詳細や証明は以下のサイトをご参照ください。
「正規分布の基礎的な知識まとめ - 高校数学の美しい物語」
##1-2.シグマ区間
正規分布の時、以下が成り立つことが知られています。
1σ 区間 [μ−σ, μ+σ] におさまる確率 = 約 68.27%
2σ 区間 [μ−2σ, μ+2σ] におさまる確率 = 約 95.45%
3σ 区間 [μ−3σ, μ+3σ] におさまる確率 = 約 99.73%
##1-3.ド・モアブル–ラプラスの定理
二項分布B(k;n,p)の近似式としての正規分布です。
\begin{align}
&nが十分大きいとして、二項分布の平均値npと分散np(1-p)に関して、\\
&実数の定数\mu=np、正の定数\sigma= \sqrt{np(1-p)}とおくとき、\\
\\
&2項分布B(n;p)は正規分布N(\mu,\sigma)に近づく、ことが言える\\
\\
&*** このド・モアブル–ラプラスの定理は中心極限定理より導かれる。\\
\\
&\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad\\
\end{align}
詳細は以下のサイトをご参照ください。
「二項分布の正規近似(ラプラスの定理) - 高校数学の美しい物語」
「コイン投げから分かる二項分布。正規分布やポアソン分布との関係性と近似について」
次のような例題に応用してみます。
さいころを200回投げた時に1の目が出る回数を確率変数Xとする。Xは2項分布B(200; 1/6)に従う。
\begin{align}
&\mu = E[X]=np=200(1/6)=33.33\\
&\sigma^2 = V[X] = np(1-p) =200(1/6)(5/6)=27.78\\
&\sigma = 5.27\\
\\
&\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad \\
\end{align}
ド・モアブル–ラプラスの定理より、**2項分布B(200;1/6)は正規分布N(33.33, 5.27)に近似できます。**つまり正規分布のシグマ区間を用いれば、即座に以下のことがわかります。
区間 | 確率 | 区間を回数で表す |
---|---|---|
1σ | 68% | 28 ~ 38 回 |
2σ | 95% | 23 ~ 43 回 |
3σ | 99% | 13 ~ 48 回 |
##1-4.Juliaで例題を解いてみる
Juliaで分布を扱うための基礎知識は以下のページを参照してください。
「Juliaで学ぶ確率変数(1) - 確率変数の定義」の「4.Juliaで確率分布を扱う」
Juliaでは正規分布の確率密度の定義はDistributions.Normalを使います。μとσが与えられれば、Normal(μ,σ)で定義します。
サイト正規分布とは何なのか?その基本的な性質と理解するコツのわかりやすい例題を考えてみます。
日本の成人男性の平均身長 μ=171cm、標準偏差 σ=6cmとする。
正規分布に従うと仮定した場合、日本中からランダムに1人選ばれた成人男性の身長が165cm以上171cm以下である確率は何%か?
連続型確率変数の、区間[a,b]の確率は分布関数の引き算**cdf(d,b)-cdf(d,a)**で求まります。
# まだStatPlotsをインストールしていなければ必要。
import Pkg; Pkg.add("StatPlots")
using Plots
using Distributions
# using StatPlotsを行ってからplotする。
using StatPlots
d=Normal(171,6)
plot(d,fill=(0, .5,:orange))
cdf(d,171)-cdf(d,165)
0.341344746068543
d=Normal(171,6)で確率密度関数を定義して、cdf(d,171)-cdf(d,165)の計算結果(0.341344746068543)が答えになります。
プログラムではこの正規分布のグラフもプロットしています。
確率密度関数と分布のグラフです。
d=Normal(171,6)
scatter(d, leg=false) # 確率密度を散布図にする
bar!(d, func=cdf, alpha=0.3) # 分布を棒グラフにする
分布がちょうど平均(171)で0.5(50%)になっているのがわかります。密度関数と分布の関係が視覚的にとらえられます。
今回は以上です。