#はじめに
JDLA E資格試験の期待値・分散の問題について解説した記事です。
E資格試験の応用数学パートでは、定義式が問われる程度ですが、確率・統計は機械学習・深層学習全般において使用されるため、本稿の内容を理解しておくのは必須です。
なお、他パートの具体的な解説については、下記をご覧ください。
[E資格試験に関する私の投稿記事リスト][link-1]
[link-1]:https://qiita.com/fridericusgauss/items/5a97f2645cdcefe15ce0
###目次
###数学表記
$\mathbb{R}$は実数集合です。
#確率の諸定義
まず、確率変数を説明するために必要な用語を解説します。
__試行__とは、ある行動を行い、その結果(結果は何種類の状態を取り得る)を観測する一連の行為のことです。
例えば、「コインを投げて、コインの面を確認する」、「サイコロを振って、サイコロの目を確認する」などです。
また、__事象__は、試行の結果として起こる各状態のことで、__標本空間$\Omega$__は、その事象全体の集合です。
例えば、コインを投げる試行の場合、表と裏が各事象で、$\{表,裏\}$が標本空間です1。
ただし、便宜上、表を$1$、裏を$0$として、標本空間$\Omega=\{0,1\}$というように、各事象に数値を割り当てるのが一般的です。
__確率変数__は、各事象に割り当てられた数値を取り得る変数です。
例えば、コインを投げる試行の場合、確率変数$X$は$\Omega=\{0,1\}$の中の値を取る変数です。
特に、標本空間が可算集合の場合、__離散型確率変数__と呼びます。
__確率__とは、標本空間$\Omega$内の各事象の起こりやすさの割合です。
例えば、コインを投げる試行の場合、確率変数$X$の確率$P(X)$は下記式で表されます。
P(X) = \left\{
\begin{array}{ll}
1/2 & ,X = 0 \\
1/2 & ,X = 1
\end{array}
\right.
確率変数の性質を表す代表的な量として、期待値と分散があります。
これ以降では、離散型確率変数$X\in \mathbb{R}$が標本空間$\Omega=\{x_1, x_2,\cdots,x_p\}$をとるケースに限定します。
#確率変数の期待値・分散
###確率変数の期待値
確率変数の期待値は、__1度試行したとき、確率変数(結果)が期待される平均的な値を示す値__です。
離散型確率変数$X$の期待値$\mathbb{E}[X]$は式(1)で表されます。
\mathbb{E}[X]=\sum_{i=1}^{p} x_i P(X=x_i)
\tag{1}
###確率変数の分散
確率変数の分散は、__1度試行したとき、確率変数(結果)の散らばりを示す値__です。
離散型確率変数$X$の分散$\mathbb{V}[X]$は式(2)、または式(3)で表されます。
\begin{align}
\mathbb{V}[X]&=\mathbb{E}[(X-\mathbb{E}[X])^2]
\tag{2}\\
\mathbb{V}[X]&=\mathbb{E}[X^2]-(\mathbb{E}[X])^2
\tag{3}
\end{align}
また、期待値からのズレ__$X-\mathbb{E}[X]$を偏差__と呼びます。
偏差が大きい程、確率変数$X$は散らばりを生み出していると理解できます。
このため、式(2)の通り、分散は__二乗偏差の期待値__と解釈できます2。
#標本理論
前半は確率に関する定義でしたが、後半は統計に関する定義です。
まず、機械学習は統計から発展した分野で、_手元のデータの特性を学習し、未知のデータに対してその学習結果を適用する_という考えが根本に存在します。
このため、データとは何か、データから推測するとは何か、という点をより慎重に意味を与える必要があります。
そこで、(推測)統計では、__標本理論__が基盤となります。
標本理論では、__母集団__と__標本__を区別して、統計量を計算します。
母集団とは、__本来知りたいと考えている対象の集団全体、あるいはそのデータ集合__のことです。
一方、標本(サンプル)とは、__調査のために母集団から抽出した一部の集団、あるいはそのデータ集合__のことです。
母集団は全て手元に揃えることがほぼ不可能な程の膨大なサイズを想定しているため、母集団を直接調査することを諦めて、代わりに母集団から抽出した一部の集団(標本)について調査し、標本の性質を母集団の性質として推測するという考えです。
例えば、日本人女性の平均身長を調べる場合を考えます。
母集団は日本人女性全員(約6500万人)で、そこから一部を抽出した女性が標本(例えば100人)となります。
標本の女性の身長データを調査し、その平均値を母集団の平均身長だと推測します。
母集団と標本のイメージ図については下記をご覧ください。
[母集団と標本][link-2]
[link-2]:https://bellcurve.jp/statistics/course/8003.html
なお、標本抽出方法も重要ですが、本稿では無作為抽出を仮定し、詳細は省きます。
以上のように、一般に我々が調査できるのは標本の範囲であるため、手元のデータを基本的に標本として扱い、標本について統計量を具体的に計算します。
また、データの特性を表す代表値を、__統計量__と呼びます。
統計量の例として、データの平均や分散が挙げられます。
これ以降では、$n$個のデータ集合$D=\{x_1, x_2,\cdots,x_n\}$を扱うケースに限定します。
本稿では、特に断りが無い限り、データ集合と呼ぶ場合は、標本として扱うことにします。
#データの平均・分散
###データの平均
データの平均は、__データの中間的な値を表す代表的な統計量__です。
データ集合$D$の平均${\mu}$は式(4)で表されます。
\mu=\frac{1}{n}\sum_{i=1}^{n} x_i
\tag{4}
また、集合$D$が母集団の場合、__母平均__と呼び、集合$D$が標本の場合、__標本平均__と呼びます。
###データの分散
データの分散は、__データの散らばりを表す代表的な統計量__です。
データ集合$D$の分散${\sigma}^2$は式(5)で表されます。
{\sigma}^2=\frac{1}{n}\sum_{i=1}^{n} (x_i -\mu)^2
\tag{5}
ただし、$\mu$はデータ集合$D$の平均で、__$\sigma$を標準偏差__と呼びます。
確率変数の場合と同様に、二乗偏差$(x_i -\mu)^2$の平均と解釈できます。
また、集合$D$が母集団の場合、__母分散__と呼び、集合$D$が標本の場合、__標本分散__と呼びます。
#期待値と平均の違い
確率変数の期待値は、データの母平均と一致します。
執筆途中ですが、この項目はE資格試験では出題されません。
執筆完了するまでは下記をご覧ください。
https://risalc.info/src/st-sample-mean-variance.html#ex=mu
#おわりに
E資格向けの期待値・分散について解説しました。
なお、上記は、2021年2月時点における内容であることにご注意ください。
[E資格試験に関する私の投稿記事リスト][link-1]