More than 1 year has passed since last update.

応用数学第二章確率・統計【ラビットチャレンジ】

Last updated at 2023-02-15Posted at 2023-02-15

概要

本記事は「JDLA E資格」の取得に必要なJDLA認定プログラムのひとつであるラビットチャレンジの受講レポートとして投稿したものです。

E資格について
https://www.jdla.org/certificate/engineer/

集合とは

ものの集まり。数学的には集合Sを以下のように表す。

S = \{a, b, c\}

aやbを集合Sの要素といい、aがSの要素であることを以下のように表す。

a \in S

Sの内部に別の集合$M=\{b, c\}$がある場合、以下のように表す。

M \subset S

確率や統計に登場する「事象」は集合として扱える。

和集合・共通部分と絶対補・相対補

和集合： $A \cup B$
共通部分： $A \cap B$
絶対補： $U , \backslash A = \bar{A}$
相対補： $B , \backslash A$
$\cup$をカップ、$\cap$をキャップと読んだりする。

確率

確率には頻度確率（客観確率）とベイズ確率（主観確率）がある。

頻度確率（客観確率）：発生する頻度。くじ引きなどの確率はこちらに該当する。
ベイズ確率（主観確率）：信念の度合い。

確率（頻度確率）の定義

P(A) = \frac{n(A)}{n(U)} = \frac{事象Aが起こる数}{すべての事象の数}

条件付き確率

① AとBが同時に起こる確率

\begin{align}
P(A \cap B) &= P(B \cap A) \\
&= P(A) P(B|A) \\
&= P(B) P(A|B) \\
&= \frac{n(A \cap B)}{n(U)}
\end{align}

② Bが起こる条件下でAが起こる確率

\begin{align}
P(A|B) &= \frac{P(A \cap B)}{P(B)} \\
&= \frac{n(A \cap B)}{n(B)}
\end{align}

①は分母が$n(U)$、②は分母が$n(B)$という違いがある

独立な事象の同時確率

\begin{align}
P(A \cap B) &= P(A) P(B|A) \\
&= P(A) P(B)
\end{align}

AとBに因果関係がないとき、条件がない場合でもAという条件が付いてもBの確率は変わらない

和事象の確率

\begin{align}
P(A \cup B) &= P(B \cup A) \\
&= P(A) + P(B) - P(A \cap B) \\
\end{align}

ベイズ則

P(A) P(B|A) = P(B) P(A|B)

統計

統計学には大きく記述統計と推測統計の二分野があり、
AIでビッグデータを扱う場合は主に記述統計を用いる。

記述統計

集団の性質を要約し記述する

推測統計

集団から一部（標本）を取り出し元の集団（母集団）の性質を推測する

確率変数と確率分布

確率変数

・事象と結び付けられた数値
・事象そのものを指す場合もある

確率分布

・事象の発生する確率の分布
・離散値（飛び飛びの値）であれば表に示せる

期待値

離散値

E(f) = \sum_{k=1}^{n} P(X=x_k) f(X=x_k)

連続値

E(f) = \int P(X=x_k) f(X=x_k) dx

分散と共分散

分散

・データの散らばり具合
・データの各々の値が期待値からどれだけズレているのか平均したもの

\begin{align}
Var(f) &= E \Bigl( \bigl( f_{(X=x)} - E_{(f)} \bigr) ^2 \Bigr) \\
&= E \bigl( f^2_{(X=x)} \bigr) - \bigl( E_{(f)} \bigr) ^2
\end{align}

共分散

・２つのデータ系列の傾向の違い
・正の値を取れば似た傾向、負の値を取れば逆の傾向、ゼロに近いと関係性に乏しい

\begin{align}
Cov(f, g) &= E \Bigl( \bigl( f_{(X=x)} - E_{(f)} \bigr) \bigl( g_{(Y=y)} - E_{(g)} \bigr) \Bigr) \\
&= E(fg) - E(f)E(g)
\end{align}

分散と標準偏差

分散は2乗してしまっているのでルートを取ることで元の単位に戻す。

\begin{align}
σ &= \sqrt{Var(f)} \\
&= \sqrt{ E \Bigl( \bigl( f_{(X=x)} - E_{(f)} \bigr) ^2 \Bigr) }
\end{align}

様々な確率分布

ベルヌーイ分布

・コイントスの表と裏のように2種類のみの結果しか得られない場合の分布
・表と裏で出る割合が違っても扱える
・二項分布で試行回数$n=1$のとき

P(x|μ) = μ^x (1-μ)^{1-x}

・裏が$x$回出る（$x$は$0$か$1$）
・$μ$は裏が出る確率（$x=1$の時の確率）

マルチヌーイ（カテゴリカル）分布

・ベルヌーイ分布の多値バージョン（さいころのように6種類の結果が得られるなど）
・さいころの各面の出る割合が違っても扱える
・多項分布で試行回数$n=1$のとき

二項分布

・ベルヌーイ分布の多試行版

\begin{align}
P(x|λ, μ) &= {_nC_x} \, λ^x (1-λ)^{n-x} \\
&= \frac{n!}{x!(x-n)!} λ^x (1-λ)^{n-x}
\end{align}

ガウス分布

・釣鐘型の連続分布

\begin{align}
P(x|λ, μ) &= {_nC_x} \, λ^x (1-λ)^{n-x} \\
&= \frac{n!}{x!(x-n)!} λ^x (1-λ)^{n-x}
\end{align}

推定

母集団を特徴づける数である母数（パラメーター：平均や分散など）を統計学的に推測すること。
母数（パラメーター）は分母のことではない。
今回は点推定について扱う。

点推定

平均値などを1つの値に推定すること

区間推定

平均値などが存在する範囲（区間）を推定すること

推定量と推定値

推定量(estimator)

パラメーターを推定するために利用する数値の計算方法や計算式のこと。推定関数とも。

推定値(estimate)

実際に試行を行った結果から計算した値。

・日本語ではあまり区別しないこともある。
・真の値を$θ$とすると$\hat{θ}$（シータハット）のように表す。

標本平均

母集団から取り出した標本の平均値。以下の性質がある。

一致性

サンプル数が大きくなれば母集団の値に近づく

不偏性

サンプル数がいくらであってもその期待値は母集団と同様

E(\hat{θ}) = θ

標本分散

\hat{σ}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

一致性は満たすが不偏性は満たさないため、不偏分散を考える。

不偏分散

\begin{align}
s^2 &= \frac{n}{n-1} \times \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2 \\
&= \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
\end{align}

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

応用数学 第二章 確率・統計【ラビットチャレンジ】

概要

目次