LoginSignup
41
44

統計検定DSエキスパートチートシート(その1:統計基礎)

Last updated at Posted at 2023-12-01

統計検定DSエキスパートの取得に向け勉強用(2023年12月時点でまだテストには合格していません)に整理しているチートシートです。DSエキスパートのシラパスは公開されていいますが、その範囲は膨大です。いくつかのパートに区切って順次チートシートを整理して行きたいと思いいますが、今回は「統計基礎」になります。  
※一部、未整理の部分がありますが、順次埋めていきます。また、誤り等があればご指摘ください。順次ブラッシュアップしていきます。

統計基礎

1. 確率と確率分布

確率分布、確率変数

  • チェビシェフの不等式
    平均からズレる確率の不等式
    $$P( |X - \mu| \geq \kappa \sigma) \leq \frac{1}{\kappa^2} $$
    $ \hspace{40mm}ここで\hspace{4mm} \mu: 平均、 \hspace{2mm} \sigma{^2}: 分散、  \hspace{2mm} \kappa:任意の値$

  • 積率(モーメント)
    分布の平均値やバラツキ、ひずみや尖り度を数値化するもの。
    原点まわりのr次のモーメント:
    $$ \mu_{\hspace{2mm}r} \hspace{2mm}= \hspace{2mm} E[X^{r} ] $$
    Xの平均値(期待値)まわりのr次のモーメント:
    $$ \mu_{\hspace{2mm}r}^{\hspace{2mm}'} \hspace{2mm}= \hspace{2mm} E[ (X - \mu )^{r} ] $$

平均は「原点まわりの1次のモーメント」、分散は「平均値まわりの2次のモーメントとなる。
歪度は「平均値まわりの3次のモーメント」を $\sigma^{\hspace{2mm}3}$ で割ったもの、尖度は「平均値まわりの4次のモーメント」を $\sigma^{\hspace{2mm}4}$ で割ったもの。

[参考] https://bellcurve.jp/statistics/course/23841.html

  • 尖度
    分布の尖り具合と裾の広がり具合を表す。正規分布に従うときは尖度 = 0 となり、正規分布と比較して尖っていて裾の長い分布(t分布)の尖度は正の値になり自由度が大きいほど尖度はゼロに近づき正規分布に近づく。一方、正規分布より裾の短い分布である一様分布の尖度は負の値となる。
標本尖度 \hspace{5mm}=\hspace{5mm} \frac{1}{n} \sum_{i=1}^n \frac{(x_{\hspace{1mm}i} - \bar{x}\hspace{1mm})^4}{s^4} \hspace{5mm} - 3 \hspace{5mm}\\
*s は標本標準偏差 \\
*正規分布での4次モーメントは3であり、上記式での「−3」は正規分布での標本尖度がゼロとなるように調整したもの \\
正規分布の4次モーメント \hspace{3mm} \frac{1}{n} \sum_{i=1}^n \frac{(x_{\hspace{1mm}i} - \bar{x}\hspace{1mm})^4}{s^4} \hspace{5mm}=3 
  • 歪度
    非対称の大きさを表す。 正規分布や t 分布のような左右対称の分布では歪度はゼロとなり、右に裾が長い分布では正の値、左に裾が長い分布では負の値となる。
標本歪度 \hspace{5mm}=\hspace{5mm} \frac{1}{n} \sum_{i=1}^n \frac{(x_{\hspace{1mm}i} - \bar{x}\hspace{1mm})^3}{s^3} \\
* s は標本標準偏差
  • 積率母関数(モーメント母関数)
    積率母関数$m(\theta)$は、確立母関数において、$ s = e^{\theta} $と置いたもの。
    $$ m(\theta) = E[e^{\theta X}\hspace{2mm}] = G(e^{\theta}\hspace{2mm}) $$
    $$ m^{\hspace{1mm}'}(0) = E[X], m^{\hspace{1mm}''}(0) = E[X^{2}\hspace{1mm}], \dots , m^{\hspace{1mm}k}(0) = E[X^{k}\hspace{1mm}] $$

確立母関数とは、整数値をとる確率変数に主に用いられ、整数値をとる確立変数 X の確率関数を$p(x)$とし、$s$を任意の実数とするとき、X の確立母関数 $G(s)$を以下で定義する。
$$ G(s) = E[s^{\hspace{1mm}X}] = \sum_{x} s^{\hspace{1mm}x}\hspace{1mm}p(x) $$
ここで、 $ s = 1$とすると期待値、分散は以下となる。
$$ G^{'}(1) = E[X] , \hspace{3mm} G^{''}(1) = E[X(X - 1)] $$
$$ E[X] = G^{'}(1) $$
$$ V[X] = E[X^{2}] - (E[X])^{2} = G^{''}(1) + G^{'}(1) - (G^{'}(1))^{2} $$

主要な確率分布

  • 対数正規分布
    $$Λ(\mu, \sigma^{\hspace{1mm}2}\hspace{1mm})=\frac{1}{\sqrt{2\pi}\hspace{2mm}σx}\hspace{2mm}exp\biggl(- \frac{(\log x - μ)^2}{2σ^{\hspace{2mm}2}}\hspace{4mm}\biggr) $$
    $$ X \hspace{2mm}〜\hspace{2mm}Λ(\mu, \sigma^{\hspace{1mm}2}\hspace{2mm}) のとき、logX \hspace{2mm}〜\hspace{2mm} N(\mu ,\sigma ^{\hspace{1mm}2} ) $$

  • ガンマ分布
    単位時間あたりλ回発生する事象がa回起こるまでの時間分布、 正の実数 x $\in \mathbb{R}^+ $を生成してくれる確率分布
    $$Ga(a, b)またはGa(a,1/λ)=\frac{λ^{\hspace{1mm}a}}{Γ(a)}・x^{a - 1}・e^{-λx}$$

  • ベータ分布
    成功回数aと失敗回数bが分かっている事象の成功率pの分布 、 x $\in$ (0, 1)となるような変数を生成してくれる確率分布
    $$B(a, b)=\frac{1}{B(a, b)}・x^{a - 1}・(1 - x)^{b - 1}$$

  • 超幾何分布
    N個からなる2グループ(M個、N-M個)から、n個を取り出す(非復元抽出) ときに、M個の中から取り出される数の確立分布
    $$HG(N, M, n)=\frac{_MC _x ・ \hspace{1mm} _{N-M}C _{n-x}}{{}_NC_n} $$

  • 負の二項分布
    成功確立pの独立なベルヌーイ試行を繰り返し行い、r回目の成功が起こった時点でそれまでの失敗回数Yの分布

NB(r, p)=\hspace{2mm} _rH_x・p^{\hspace{1mm}r}・q^{\hspace{1mm}x} \\ 
ここで、_rH_x \hspace{2mm}=\hspace{2mm} _{x+r-1}C_x

確率変数の漸近的性質

  • 大数の法則
    多数回の試行の結果として得られたデータの平均や相対度数が、確率分布の平均や生起確率に近づくこと。
     
  • 中心極限定理
    n 個の確率変数 Xnの標本平均の分布は、 n が大きくなるにつれて(もとの分布が正規分布でない場合でも)正規分布に近づくこと。
     
  • 確率収束
\lim_{n \to \infty} P(|X_{\hspace{1mm}n} - Y | > \epsilon = 0 \\
ここで、X_{\hspace{1mm}n}は確率変数の列、Yは確率変数、\epsilonは任意の値

なお、概収束 $ \hspace{1mm} P(\lim_{n \to \infty} X_{\hspace{1mm}n} = Y ) = 1 $ する確率変数列は確立収束する。平均二乗収束 $ \hspace{1mm} \lim_{n \to \infty} E[(X_{\hspace{1mm}n} - Y) ^{2} ] = 0 ) $ する確率変数は確立収束する。

 

  • 分布収束
    確率変数そのものの収束ではなく、文字どおり分布の収束を表す。
\lim_{n \to \infty} F_{n}(x) = G(x) \\
ここで、F_{n}(x) = P(X_{\hspace{1mm}n} \leq x)、G(x)は確率分布

2. 推測統計

標本分布

  • カイ二乗分布
    χ2分布は標準化変量 z を2乗和した χ2 値が従う確率分布。 母分散の信頼区間の推定やクロス集計表の検定に用いる。 χ2 分布は、検定のために作り出された分布である。

自由度 df が大きくなると徐々に正規分布に近づく。

z_{\hspace{1mm}i} \hspace{5mm}=\hspace{5mm} \frac{x_{\hspace{1mm}i} - \mu}{\sigma} \\
\chi^{\hspace{1mm}2} \hspace{5mm}\equiv\hspace{5mm} z^{\hspace{1mm}2} \hspace{5mm}=\hspace{5mm} \frac{(x - \mu)^2}{\sigma^{\hspace{2mm}2}}

χ2 は以下になる。

\chi_{\hspace{1mm}(n)}^{\hspace{1mm}2} \hspace{5mm}\equiv\hspace{5mm} \sum_{i=1}^n z_i^{\hspace{1mm}2} \hspace{5mm}=\hspace{5mm} \frac{\sum_{i=1}^n (x_{\hspace{1mm}i} - \mu)^2}{\sigma^{\hspace{2mm}2}} \\
 
\chi_{\hspace{1mm}(n)}^{\hspace{1mm}2} \hspace{5mm}=\hspace{5mm} \frac{(n\,-\,1)s^{\hspace{1mm}2}}{\sigma^{\hspace{2mm}2}} \\

自由度(df=n)の χ2 分布の期待値と分散は下記となる。

\begin{align}
&期待値 \hspace{5mm}  E[X]   =    n \\
&分散   \hspace{5mm}  V[X]   =    2n
\end{align}
  • 標本平均と標本分散の独立性
    n個の確率変数 Xiのそれぞれが同一の正規分布に従い、 互いに独立であるならば、標本平均と標本分散は、独立な確率分布に従うこと。
     
  • t 分布
    独立な2つの確率変数 ZW があり、Z が標準正規分布 N(0, 1)W が自由度 mχ2 分布に従うとき、下記の式に従う分布を自由度 mt 分布と呼ぶ。
    母分散が未知でサイズの小さな標本から母平均などを推定/検定を行う際に標準正規分布の代わりに用いる。
t \hspace{5mm}=\hspace{5mm} \frac{Z}{\sqrt{W/m}}

自由度 m が大きくなると正規分布に近づく。

また、観測値の場合の t は下記となり、

t \hspace{3mm}=\hspace{3mm} \sqrt{n} (\bar{x} - \mu) \hspace{1mm}/\hspace{1mm} \hat{\sigma}  \hspace{3mm}=\hspace{3mm} \sqrt{n - 1} \hspace{1mm}(\bar{x} - \mu) \hspace{1mm}/\hspace{1mm} s \\

自由度 n - 1 のt分布に従う。

  • F 分布
    F分布は独立した2つの χ2 値の比であるF値が従う確率分布。等分散性の検討や分散分析に用いる。
    2つの確率変数 W1W2があるとき、それぞれの自由度で割った比を取った、
F \hspace{5mm}=\hspace{5mm}  \frac{W_1 / \nu_1}{W_2 / \nu_2}

に従う分布を自由度 1, ν2) のF分布という。

2つの自由度によって分布の形は変化し、両方の自由度が大きい場合は平均はほぼ1となる。

(他の確率分布が正規分布に従った母集団から無作為に抽出した標本に基づいた統計量が従う分布であるのに対し)F分布は「2つの母集団」から無作為に抽出した「2つの標本」に基づいた統計量が従う分布であり、標準正規分布に従う2つの母集団から無作為抽出した2つの χ の2乗値の比であるF値の確率分布となる。

F値は、2つの χ2 の自由度をそれぞれ ν1、 ν2とすると以下の式で表す。

F_{(\nu_1,\hspace{1mm}\nu_2)} \hspace{5mm}=\hspace{5mm} \frac{\frac{\chi_{(\nu_1)}^2}{\nu_1}}{\frac{\chi_{(\nu_2)}^2} {\nu_2}}

また、不偏分散を使った場合は下記の式で表す。

F_{(\nu_{\hspace{1mm}1},\hspace{1mm}\nu_{\hspace{1mm}2})} \hspace{5mm}=\hspace{5mm} \frac{\frac{\nu_{\hspace{1mm}1} \hat{\sigma_{\hspace{1mm}1}^{\hspace{1mm}2}}}{\sigma_{\hspace{1mm}1}^{\hspace{1mm}2}} / \nu_{\hspace{1mm}1}}{\frac{\nu_{\hspace{1mm}2} \hat{\sigma_{\hspace{1mm}2}^{\hspace{1mm}2}}}{\sigma_{\hspace{1mm}2}^{\hspace{1mm}2}} / \nu_{\hspace{1mm}2}} \\ 
\,  =\hspace{5mm} \frac{\hat{\sigma_{\hspace{1mm}1}^{\hspace{1mm}2}}}{\sigma_{\hspace{1mm}1}^{\hspace{1mm}2}}・\frac{\sigma_{\hspace{1mm}2}^{\hspace{1mm}2}}{\hat{\sigma_{\hspace{1mm}2}^{\hspace{1mm}2}}} 

ここで、母分散が等しいとした場合、

\frac{\sigma_{\hspace{1mm}2}^{\hspace{1mm}2}}{\sigma_{\hspace{1mm}1}^{\hspace{1mm}2}} \hspace{5mm}=\hspace{5mm} 1 

となるため、

F \hspace{5mm}=\hspace{5mm} \frac{\hat{\sigma_1^2}}{\hat{\sigma_2^2}}

このF値を統計検定量として、抽出元である2つの母集団の分散が同じかを検定する等に用いられる。

点推定、区間推定

  • 一致性
    確率分布 $F_{θ} $に独立同一に従う標本 $ X_{1}, X_{2},\dots,X_{n} $をもとに得られる推定量 $ \hat{θ} = \hat{θ}(X_{1}, X_{2},\dots,X_{n}) $ のとき、真のパラメータθは未知であるが、どのような値であっても推定量がその値に確率収束するとき、その推定量を一致性を持つという。
    $$ \lim_{n \rightarrow \infty} P(| \hat{\theta} - \theta | < \epsilon ) = 1 \hspace{5mm}, \hspace{10mm}\epsilonは任意で \hspace{5mm} \epsilon > 0 $$

  • 有効性(漸近有効性)
    上記、一致推定量の分散が漸近的にクラメール・ラオの不等式の下限を達成するとき、この推定量が漸近有効性(asymptotic efficienty)を持つという。
    $$ \lim_{n \rightarrow \infty} nV_{\theta}[\hat{\theta}] = J_{1}(\theta)^{-1} \hspace{5mm}, \hspace{10mm}\thetaは任意 $$

  • 信頼区間と信頼係数
    今後記載予定

汎用的な検定

  • 尤度比検定
    $$ \lambda_{n} = \frac{\max_{\theta_{1},\theta_{2}} f_{n}(x_{n};\theta_{1},\theta_{2})}{\max_{\theta_{2}} f_{n}(x_{n};\theta_{10},\theta_{2})} $$
    とし、$ 2\log \lambda_{n} $ の分布は自由度 p のカイ二乗分布に従うので、
    $$ 2\log \lambda_{n} \geq \chi^{2}_{\alpha}(p)\hspace{5mm} , \alpha は有意水準 $$

のときに$ H_{0} $を棄却する。

  • ノンパラメトリック検定
検定の内容 実施する検定名
2群の差の検定 ウィルコクソンの順位和検定、並び替え検定
対応がある場合の差の検定 ウィルコクソンの符号付き順位検定、符号検定
3群以上の差の検定 クラスカル・ウォリス検定
  • ウィルコクソン検定
     
  • ウィルコクソンの順位和検定
    2群の差の検定を行う。
\begin{align}
&\hspace{20mm}\frac{P(W_A \leqq x)}{{}_{m+n}C_m}  \\
&\hspace{2mm} \\
&ここで、\\
&W_Aは群Aの順位の和、mは群Aのサンプル数、nは群Bのサンプル数、xは検定する順位和
\end{align}

 
データ数が多い場合は、正規分布で近似できる。

\begin{align}
&平均: \frac{m(m+n+1)}{2} \hspace{20mm}\\
&分散: \frac{mn(m+n+1)}{12} 
\end{align}
  • ウィルコクソンの符号付き順位検定
\begin{align}
&\hspace{10mm}\frac{P(T_+ \geqq x)}{2^n}  \\
&\hspace{2mm} \\
&ここで、\\
&T_+は、正値の合計値、nはサンプル数、xは検定する順位和 \hspace{30mm}
\end{align}

 
データ数が多い場合は、正規分布で近似できる。

\begin{align}
&平均: \frac{n(n+1)}{4} \hspace{20mm}\\
&分散: \frac{n(n+1)(2n+1)}{24} 
\end{align}
  • クラスカル・ウォリス検定
    2群以上の複数の群の分布に差があるのか否かを検定する。
\begin{align}
&H = \frac{12}{N(N+1)}(n_A(\bar{R_A} - \tilde{N})^2 + n_B(\bar{R_B} - \tilde{N})^2 + n_C(\bar{R_C} - \tilde{N})^2) \\
\hspace{2mm} \\
&ここで、 \\
&\tilde{N} =  \frac{N+1}{2} = 順位の中央値、Nはサンプル数、n_Aは群Aのサンプル数、R_Aは群Aの順位和、\bar{R_A}は群Aの順位の平均 \\
&\hspace{1mm} \\
&検定は、自由度 n = (群の数-1) の \chi^2(n)で行う
\end{align}
  • 並べ替え検定

ウィルコクソンの順位和検定では、それぞれの群の和をとっているが、並び替え検定ではそれぞれの群の平均$ \hspace{2mm} \bar{X_A} , \bar{X_B} $ を検定統計量とすること。

種々の検定

 

  • 一元配置分散分析
\begin{align}
&y_{\hspace{1mm}ij} = \mu + \alpha_{\hspace{1mm}i} + \epsilon_{\hspace{1mm}ij},  \hspace{5mm}\epsilon_{\hspace{1mm}ij} \sim N(0, \sigma^{\hspace{1mm}2}) \\
&\hspace{2mm} \\
&ここで、 \\
&\mu = \sum_{i=1}^{a} \mu(A_{\hspace{1mm}i}) /a  , 水準間の平均 \\
&\alpha_{\hspace{1mm}i} = \mu(A_{\hspace{1mm}i}) - \mu \\
&\hspace{2mm} \\
&H_{\hspace{1mm}0} = \alpha_{\hspace{1mm}1} = \cdots \alpha_{\hspace{1mm}a} = 0
\end{align}

$ \hspace{25mm} 信頼度αの信頼区間 $

y_{A_{\hspace{1mm}i}} \pm t_{\hspace{1mm}\alpha/2} \hspace{2mm} (\phi_{\hspace{1mm}E}) \hspace{2mm} \sqrt{\frac{V_{\hspace{1mm}E}}{n_{\hspace{1mm}Ai}}}

$ \hspace{25mm} 自由度  $

\begin{align}
S_{\hspace{2mm}T} = n - 1 \hspace{2mm},\hspace{2mm} S_{\hspace{2mm}A} = a - 1 \hspace{2mm},\hspace{2mm} S_{\hspace{2mm}E} = n - a 
\end{align}
  • 二元配置分散分析

$ \hspace{25mm} 自由度 $
 

\begin{align}
S_{\hspace{2mm}T} = n - 1 , S_{\hspace{2mm}A} = a - 1 , S_{\hspace{2mm}B} = b - 1, \\
S_{\hspace{2mm} A \times B} = (a - 1)(b - 1) ,S_{\hspace{2mm}E} = n - ab
\end{align}
  • 乱塊法(らんかいほう)
    ブロック因子を導入し他の因子の効果を検出されやすくする。

$ \hspace{25mm} 自由度  $

\begin{align}
S_{\hspace{2mm}T} = n - 1 \hspace{2mm},\hspace{2mm} S_{\hspace{2mm}A} = a - 1 \hspace{2mm},\hspace{2mm} S_{\hspace{2mm}B} = b - 1  \\
\hspace{2mm},\hspace{2mm} S_{\hspace{2mm}E} = n - a - b + 1
\end{align}
  • 交互作用
    複数因子の相乗的な効果を表し、1つの因子の効果が他の因子の水準によって異なる度合いを示す。

 

  • 適合度検定
    ピアソンのカイ二乗検定統計量
T(x) = \sum_{\hspace{1mm}i=1}^{\hspace{1mm}I} \frac{(x_{\hspace{1mm}i} - n\tilde{p_{\hspace{1mm}i}})^{2}}{n\tilde{p_{\hspace{1mm}i}}} , \hspace{5mm} x = (x_{\hspace{1mm}1}, \cdots, x_{\hspace{1mm}I} ) \\

n\tilde{p_{\hspace{1mm}i}}は期待度数 

T(x)は単純帰無仮説のもとで漸近的に自由度 d = I - 1 のカイ二乗分布に収束する。
また、度数が十分に大きくない場合はイエーツの補正を用いる(場合がある)。
$$ ( |x_{\hspace{1mm}i} - n\tilde{p_{\hspace{1mm}i}} | - 0.5 ) ^ {2} $$

多重比較

  • ボンフェロニ補正
    有意水準 α を補正する。 
    $\hspace{5mm}\frac{\alpha}{N} \hspace{5mm}$ : αは優位水準、Nは検定の回数

[参考記事]https://best-biostatistics.com/multiple/bonferroni.html

3. ベイズ理論

事前分布・事後分布

$$ P(\theta | D) = \frac{P(D|\theta)p(\theta)}{P(D)} $$
$$ P(\theta | D) : 事後分布、 P(D|\theta) : 尤度、 p(\theta) : 事前分布 $$

  • 事前分布
    データ x を観測する以前に持っている $ \theta $ に関する事前情報を確率分布で表したもの。

  • 共役事前分布
    事前分布と事後分布が同じ確率分布族のもの。

ex.

  • ベータ2項モデル
\begin{align}
&事後分布 : Be(a + x, \hspace{1mm}b + (n - x)) \hspace{10mm}\\
&MAP = \frac{a - 1}{(a + b) - 2}
\end{align}
  • ガンマ・ポアソンモデル
\begin{align}
&事後分布 : Ga = ( a + \sum{x_i} , \hspace{1mm} \frac{1}{(\lambda + n)} ) \hspace{10mm} \\
&ここで、 x_i = [x_1, \dots, x_n] \\
&MAP = \frac{a - 1}{ \lambda}
\end{align}
  • 事後分布
    データ x の情報を得た後の $ \theta $に関する情報。

$$ 事後分布 = \pi(\theta | x ) = \frac{ f(x | \theta) \pi(\theta)}{ \int_{\Theta} f(x | \theta) \pi(\theta) d\theta} $$

  • 尤度関数、共役事前分布、予測分布の関係
尤度関数 パラメータ 共益事前分布 (事後&事前) 予測分布
ベルヌーイ分布 μ  ベータ分布 ベルヌーイ分布
二項分布 μ ベータ分布  ベータ・二項分布
カテゴリ分布 π ディリクレ分布 カテゴリ分布
多項分布 π ディリクレ分布 ディリクレ・多項分布
ポアソン分布 λ ガンマ分布 負の二項分布
1次元ガウス分布 μ 1次元ガウス分布 1次元ガウス分布
1次元ガウス分布 λ ガンマ分布 1次元t分布
1次元ガウス分布 μ,λ ガンマ分布 1次元t分布
多次元ガウス分布 μ 多次元ガウス分布 1次元ガウス分布
多次元ガウス分布 Λ ウィシャート分布 多次元t分布
多次元ガウス分布 μ,Λ ガウス・ウィシャート分布 多次元t分布

ベイズ的仮説検定

ベイズファクター

$$ B_{01} = 事後オッズ比 \div 事前オッズ比 $$
$$ = \frac{P(H_{0} | X)}{ P(H_{1} | X)} \div \frac{P(H_{0})}{P(H_{1})} $$
$$ = \frac{\int_{I_{0}} P(\theta | X )d\theta}{\int_{I_{1}} P(\theta | X )d\theta} \div \frac{\int_{I_{0}} P(\theta)d\theta}{\int_{I_{1}} P(\theta)d\theta} $$

[参考]https://qiita.com/hokudai_meiyo/items/038b55e0380c3f653640

  • ベイズ判別(各カテゴリーの事後確率)
    今後記載予定

4. 計算統計

ブートストラップ

  • 復元抽出
    データを抽出する際に、一度抽出したものを戻してから、再び次の抽出を行う。
     
  • 経験分布
    母集団 F から無作為標本を抽出する際( $ x_{1}, \ldots , x_{n} \hspace{3mm} x_{j} (j=1, \ldots , n) $ )に確率 1 / n を与えて作る分布関数を経験分布関数という。
    このとき、ブートストラップ確率変数 $ X^{\star} $ は、 $ P(X^{\star} = x_{i} ) = 1/n $ を持つ。
    b回目のブートストラップ標本 $ x^{\star(b)} = ( x_{1}^{\star(b)}, \ldots, x_{n}^{ \star(b)} ) $、$ \hat{\theta^{\star}}(b) = T_{n}(x^{\star(b)}) $を反復回数Bとして、 $ b = 1, \ldots , B $として構成したものをブートストラップ法という。
\hat{se}_{B} = \sqrt{ \frac{1}{B - 1} \sum_{b=1}^{B} ( \hat{\theta}^{*}(b) -  \bar{\hat{\theta}^{*}} ) ^{2} } 
ただし、 \bar{\hat{\theta *}} = \frac{1}{B} \sum_{b=1}^{B} \hat{\theta}^{*}(b) 

 

  • リサンプリング
    母集団に適当なパラメータを持つ確率分布を仮定し、そのパラメータに推定量を代入した確率分布からリサンプリングする方法(パラメトリックブートストラップ法)。 

 

  • ジャックナイフ推定量
\hat{Se}_{jack} = \sqrt{\frac{n - 1}{n} \sum_{j=1}^{n} (\hat{\theta}_{(j)} - \bar{\hat{\theta}}_{(\cdot)} ) ^2    } 
\hat{Se}_{B} = \sqrt{\frac{1}{B - 1} \sum_{b=1}^{B} (\hat{\theta}^{*}_{(b)} - \bar{\hat{\theta}}^{*} ) ^2 }

サンプリング

  • 疑似乱数
    乱数の発生を漸化式難度に基づき行うもの。
     
  • 逆変換法
    今後記載予定
     
  • 棄却法
    今後記載予定

マルコフ連鎖モンテカルロ法

Comming soon!

モンテカルロ積分

  • モンテカルロ積分
    モンテカルロ法を用いて積分計算を近似する。
  • 確率分布p(x)から、xをN個サンプリングする。
    $ X = \lbrace x_{1}, \cdots, x_{n}, \cdots,x_{N} \rbrace $
     
  • 得られたすべての $ x_{n} \in X $で以下を実行
    $ \sum_{n=1}^{N} \frac{1}{n} f(x_{n}) $
     
  • 積分区間(b-a)の値をかける
    $ (b-a) \sum_{n=1}^{N} \frac{1}{n} f(x_{n}) $

  • 期待値や確率密度の正規化定数
    今後記載予定
41
44
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
41
44