目次と前回の記事
Python のバージョンとこれまでに作成したモジュール
本記事のプログラムは Python のバージョン 3.13 で実行しています。また、numpy のバージョンは 2.3.5 です。
| リンク | 説明 |
|---|---|
| marubatsu.py | Marubatsu、Marubatsu_GUI クラスの定義 |
| ai.py | AI に関する関数 |
| mbtest.py | テストに関する関数 |
| util.py | ユーティリティ関数の定義 |
| tree.py | ゲーム木に関する Node、Mbtree クラスなどの定義 |
| gui.py | GUI に関する処理を行う基底クラスとなる GUI クラスの定義 |
AI の一覧とこれまでに作成したデータファイルについては、下記の記事を参照して下さい。
今回の記事の内容
前回の記事ではモンテカルロ法による円周率の近似値の計算方法について説明しましたが、この方法で 円周率の近似値を計算できる理由 は 大数の法則 にあります。これまでの記事では大数の法則を根拠を示さずに利用してきましたので、今回の記事から 大数の法則の詳細の説明と証明 を行うことにします。
大数の法則 は 統計学の重要な法則の一つ で、その 証明を行うため には 統計学の知識が必要 になります。また、今後の強化学習の説明 でも 統計学の知識が必要 となるので、今回の記事では 統計学に関する基本的な知識の説明 を行います。なお、統計学 は 数学を元にした学問 なので、どうしても 数式を多用 することになりますが、数式を使わずに統計学を説明するとかえってわかりづらくなる と思いますのでその点はご了承下さい。統計学を扱う書籍やウェブページは大量に存在するので、興味がある方はそれらを勉強すると良いでしょう。
参考までに 統計学 の Wikipedia のリンクを下記に記します。
統計学の分類
統計学 は 記述統計学 と 推計統計学 に分類されます。なお、推計統計学を 推測統計学と呼ぶ場合もある ようです。
記述統計学 では 実際に得られたデータを分析 することでその 特徴を理解 し、データ全体の特徴を記述して説明 します。例えば クラスのテスト の 平均や中央値などを計算 したり、その 分布をグラフで表記 したりして その特徴の説明 を行います。
推計統計学 は 母集団 と呼ばれる 全体のデータ から取り出した、標本 と呼ばれる 一部のデータ を分析することで、全体のデータの特徴を推測 します。一部のデータで推測 するため、得られた 分析結果 は 100 % 正確な値ではなく 近似値 になりますが、推計統計学では 特定の条件を満たす ような 標本を集める ことで 精度の高い分析 を行うことができます。例えば、選挙速報 では出口調査と呼ばれる方法で 投票者の一部 の 投票先を集計して分析 することで、実際の開票が行われる前 に 立候補者の当選確率を推測 します。一定以上の当選確率が推測 された候補者に対しては、開票が開始された時点 で 当選確実が報道 され、当選確実が発表された人が落選することがほとんどいない ことから 推計統計学の推測の精度の高さ をうかがい知ることができます。推計統計学は商品の満足度の調査、製品の品質検査、新薬の有効性の検証、株価の予測など様々な所で頻繁に利用されています。
記述統計学 が 実際に得られたデータの性質を分析 するという 現状認識 を行うものに対し、推計統計学 は実際に得られたデータから 実際には計測していないデータの性質を推測 するという点が異なります。前回の記事で紹介した モンテカルロ法による円周率の近似の計算 は、推計統計学 に分類されます。
母集団
分析の対象 となる データ全体を表す集合 のことを 母集団(population) と呼びます。母集団の中の 一つ一つのデータ の事を 要素(element) や 個体 のように呼びます。要素 は 数学の集合論 で用いられる用語で、母集団を 集合 と考えた場合に使われます。個体 は 分析の対象が人や物を表す場合 などで使われます。本記事では 要素 と表記することにします。
母集団のサイズ
母集団 の 要素の数 のことを 母集団の大きさ、母集団サイズ と呼び、一般的には $\boldsymbol{N}$ という記号で表記 されます。母集団の 要素の数が無限 にあるような母集団のことを 無限母集団 と呼びます。例えば、整数 は 無限にある ので 整数の母集団 は 無限母集団 です。また、サイコロを振った出目 の母集団のように、無限に行うことができる操作 の 結果を集めた母集団 のような、実際には存在しない架空の母集団も 無限母集団とみなします。他にも 製品の壊れやすさ を調査する際の 母集団 は、現在存在する製品だけでなく、今後生産される製品も含めて考える 必要があるので 要素数に制限のない無限母集団とみなす ことがあります。
本記事でのサイコロは、特に説明がない限り振った際に 1 ~ 6 までの出目 が それぞれ 1/6 の確率 で出るものとします。また、現実のサイコロは何度も振ると衝撃で形が少しずつ変化していくため出目の確率が徐々に変化しますが、本記事ではサイコロを 何度振っても出目の確率が変わらない ものとします。
全数調査
分析の対象となる すべてのデータを集めた母集団を調査して分析 することを 全数調査 と呼びます。全数調査 を行うことで 母集団の正確な性質を分析 することができますが、残念ながら 無限母集団 に対する全数調査を行うことは不可能です。また、無限母集団でない 場合でも 全数調査を行うことが困難または不可能 なことが良くあります。例えば 日本人の体重 について 全数調査 を行うためには、日本の人口である 約 1 億人全員の調査を行う必要 があ、全数調査 を行うことは 実質的には不可能 でしょう。また、全数調査を行うことは可能だが 費用や時間がかかりすぎる 場合もあります。
全数調査で得られたデータを分析して説明するのは記述統計学に分類されます。
参考までに 母集団 の Wikipedia のリンクを下記に記します。
標本と標本抽出
全数調査を行うことができない 場合は、母集団の一部を調査 してその 分析を行い、その分析結果から 母集団の性質を推測 します。このように、一部のデータ から 全体のデータを推測 するのが 推計統計学 です。
母集団 から 集められたデータ の事を 標本(sample) と呼び、母集団から 標本を集める ことを 標本抽出(サンプリング、sampling) と呼びます。標本の数の事を 標本の大きさ、標本サイズ、サンプルサイズ のように呼び、一般的に 小文字の $\boldsymbol{n}$ で表記 します。
なお、標本そのものの数 のことを 標本数、サンプル数 と呼びます。例えば サイコロを 3 回振った出目を記録 するという 標本抽出を 2 回 行った場合は、2 つの標本が作製されるので 標本数は 2 となります。また、2 つの標本の 標本の大きさは 3 となります。特に数とサイズは意味が似ているので 標本数 と 標本サイズ は 混同されることが多い ので注意して下さい。
母集団の大きさを大文字の $N$ で表すように、母集団に関する記号を大文字 で、標本に関する記号を小文字 で表記することが多いようです。
標本抽出 には、標本の重複を認める復元抽出法 と、重複を認めない非復元抽出法 があります。例えば、箱の中にある くじを複数回引く際 に、引いたくじを毎回箱に戻す のが 復元抽出法、箱に戻さない のが 非復元抽出法 です。復元抽出法 は 標本抽出 を行っても 母集団は変化しません が、非復元抽出法 は 標本抽出 を行うと 母集団が変化する ので、得られる標本の性質が異なる 点に注意が必要です。ただし、無限母集団 の場合は 非復元抽出 を行っても 母集団の内容が変わらないとみなす ことができるので 両者の違いは生じません。
以下に 標本抽出の具体例 を 3 つ示します。なお、おみくじ箱 は神社などにあるおみくじの棒の入った箱の事で、おみくじを引いた後で 引いた棒を箱の中に戻します。
| 標本抽出 | 母集団 | 標本 | 種類 |
|---|---|---|---|
| 50 人のクラスの中から 10 人を選んで体重を測定 | クラスの 50 人分の体重の一覧 | 10 人の体重の一覧 | 非復元抽出法 |
| おみくじ箱からおみくじを 10 回引く | おみくじ箱の中のおみくじの一覧 | 10 回のおみくじの一覧 | 非復元抽出法 |
| サイコロを 100 回振った出目の一覧を記録 | 無限にサイコロを振った出目の一覧を表す無限母集団 | 100 回振った出目の一覧 | 復元抽出法とみなせる |
推計統計学 では 標本 を母集団から ランダムに抽出 する事を表すこと表す 無作為抽出(random sampling) が 前提 となります。その理由は 無作為抽出 を行うことが できない場合 は、母集団 と 異なる性質を持つ標本 が得られてしまうため、標本の分析結果 が 母集団の性質と異なってしまう ためです。
例えば日本国民から 小学生だけを選んで体重を計測 した場合に得られた 標本 は、明らかに 日本人全体の体重 を集めた 母集団 と比較して 平均体重が軽い という、母集団と 異なる性質 を持ちます。そのため、得られた標本を分析 しても 日本人全体 の体重の 傾向を知ることはできません。下記に別の例を 2 つ紹介します。
- 狙った出目が出やすいように サイコロをほとんど転がらないように振った場合 も出目が偏った 母集団とは大きく性質が異なる標本 が得られる
- コーヒーを 放置する と 底にコーヒーの成分が沈殿 するため、コーヒーの成分を分析 する際に コーヒーの上澄み を標本抽出すると、薄い成分 の 母集団とは大きく性質が異なる標本 が得られる
そこで、無作為抽出 を行うための 様々な手法が考案 されています。例えば、上記の コーヒー の場合は 良くかき混ぜてから 標本抽出を行います。その中の一つに、乱数を生成する 乱数成績器(randomizer) を用いた手法があります。前回の記事で紹介した モンテカルロ法による円周率の近似値の計算 では、正方形の内部の点 という 無限母集団 から、numpy の uniform という 一様乱数を計算 する 乱数生成器 を用いて 正方形内の点の座標を計算 して 無作為抽出 を行いました。無作為抽出の様々な手法については下記の Wikipesia の記事などを参考にするとよいでしょう。
無作為でない 標本抽出のことを 作為抽出 や、有意抽出 と呼びます。例えば、インターネット でよく見かける 個人によるアンケート はその話題に興味がある人や、アンケートを行った人の意見に賛同する人が多いという点で 無作為ではない ので 偏った結果になってしまう 点に注意が必要です。また、本当の意味での無作為抽出 を行うことは 困難 です。例えば、世論調査 を行う際に ランダムに作成した電話番号にかけて意見を聞く という方法が良く取られていますが、電話を持っていない人 は 調査の対象とはならない 点などで 偏ります。
他にも、調査の対象をわざと偏らせたり、調査の質問の仕方を工夫して特定の意見に誘導する ことで、ある程度 調査の結果を意図的に偏らせる ということが 実際に行われることがある ので、統計調査の分析結果を見る際 には調査の結果だけを見るのではなく、どのような方法で調査を行っているかを確認 することが 非常に重要 です。
母集団と確率分布
推計統計学 では 標本 を 母集団から無作為に抽出 することを 前提 とするので 母集団 を 以前の記事 で説明した 確率分布で表現できる と考えます。例えば、1, 2, 2, 2, 3, 3 という 6 つの要素 を持つ 母集団 から 無作為に 1 つの要素を抽出 した場合に それぞれの値が抽出される確率 は、それぞれの値の個数÷母集団の個数 という式で計算され、出目のそれぞれの値に応じた確率 は下記の 確率分布の表 で表現されます。
| 値 | 1 | 2 | 3 |
|---|---|---|---|
| 確率 | 1/6 | 3/6 | 2/6 |
逆に、母集団の大きさ と 母集団の確率分布 がわかれば 母集団を計算 することができます。例えば上記の確率分布の表と、母集団の大きさが 6 であることがわかれば 母集団の要素に 1 が 1 個、2 が 3 個、3 が 2 個 あることがわかります。そのため、確率分布が母集団を表すとみなす ことができます。
なお、無限母集団 の場合は 要素の個数を計算することはできません が、各要素の割合 と 確率分布の各要素の確率 が 1 対 1 に対応 するので、確率分布が母集団を表すとみなす ことができます。
母集団を表す確率分布 のことを 母集団分布 と呼び、母集団分布のような 確率によってものごとの性質を表現 するもののことを 確率モデル と呼びます。母集団 を 確率モデルで表現 することで 数学の確率論 によって 分析を行う ことができるようになります。推計統計学 では 母集団の全数調査を行えないことが前提 なので 母集団分布を実際に計算することはできません が、母集団分布が存在することを仮定 し、標本から確率論を用いて母集団分布を推定 することで 母集団の性質を推測 します。そこで、次は 推計統計学で必要 となる数学の 確率論の基礎 について説明します。
参考までに 確率分布 の Wikipedia のリンクを下記に記します。
母集団分布の確率変数
確率分布 が とりうる値を表す変数 の事を 確率変数 と呼び、一般的に $\boldsymbol{X}$ で表記 します。確率変数 $\boldsymbol{X}$ の 確率分布が $\boldsymbol{P}$1 である ことを、確率変数 $\boldsymbol{X}$ が 確率分布 $\boldsymbol{P}$ に従う と表記します。また、複数の異なる確率分布 に従う 確率変数 を 区別して表記 する場合は $\boldsymbol{X}$、$\boldsymbol{Y}$、$\boldsymbol{Z}$ のように表記する場合があります。
なお、確率変数 は必ずその確率変数が従う 確率分布が存在することを前提 とします。そのため、確率変数 という用語は、具体的な確率分布が示されていない場合 でも 特定の確率分布に従う確率変数 という 意味が含まれている と考えて下さい。
母集団分布 の 確率変数 がとりうる値は 母集団の要素がとりうる値の集合 で、そのような集合のことを 母数空間 と呼びます。サイコロの出目を表す母集団 の場合の 母数空間は 1, 2, 3, 4, 5, 6 であり、確率変数 は 母数空間のいずれかの値 を取ります。母数空間 は 一般的 に ギリシャ文字の大文字 である $\boldsymbol{Θ}$ (シータ)と表記 します。
参考までに 確率変数 の Wikipedia のリンクを下記に記します。
データの数と次元
ここまでの例では、母集団の要素は 1 種類のデータのみを記録していましたが、日本人の身長と体重 を集めた母集団のように、母集団の要素に 身長 と 体重 という 2 種類のデータが記録 されている場合があります。そのような場合の 確率分布 には 2 つの異なる確率変数 があります。別の例としては、前回の記事で紹介した モンテカルロ法による円周率の近似値の計算 では、母集団 は 正方形内にランダムに配置した点の座標 を表し、その 要素 には (x, y) という 2 種類のデータが記録 されます。データ内の 変数の数 の事を 次元 と呼び (x, y) は 2 次元の座標を表すデータ です。
確率変数の次元 によって 確率分布の性質は変化します が、モンテカルロ法による円周率の近似値の計算 や、〇× ゲームの原始モンテカルロ法 では 1 次元 の確率変数が従う 確率分布の計算を行う ので、今回の記事では 1 次元の確率変数が従う確率分布 のみについて取り扱います。
データの種類
統計学で扱う データ は 量的データ と 質的データ に分類することができ、データの種類 によって 行うことができる分析が異なります。そのため、母集団を決める際 は 行いたい分析を行える種類のデータ を 要素とすることが重要 になります。
量的データ は 数値で表されるデータ で、離散型 と 連続型 の 2 種類があります。
離散型 は サイコロの出目 や 整数 のように、飛び飛びの値 をとる 離散的 なデータのことを表します。離散型のデータ を扱う 確率変数 のことを 離散型確率変数 と呼びます。
連続型 は 実数 のような数が連続している 連続的 なデータの事を表します。連続型のデータ を扱う 確率変数 のことを 連続型確率変数 と呼びます。
離散型確率変数 と 連続型確率変数 は 確率分布の種類 や 統計学での計算方法 が 大きく異なります。モンテカルロ法による円周率の近似値 を求める際に 利用する確率変数 など、本記事で取り扱う確率変数は離散型確率変数 なので、以後の説明 の確率変数は 離散型確率変数 とします。連続型確率変数については必要があれば紹介したいと思いますが、興味がある方は調べてみて下さい。
量的データは 0 が何もないことを表す比例尺度と、そうでない場合の間隔尺度があります。例えば体重は 0 kg が重さがないことを表すので比例尺度です。一方、温度を表す摂氏は 0 ℃が水が氷になる温度を表すので間隔尺度です。いずれも平均や分散などを計算することはできますが、性質が異なる点に注意が必要です。
例えば、比例尺度は比率を計算することができますが、間隔尺度は比率を計算しても意味がありません。例えば 20 ℃ は 10 ℃ の 2 倍の温度ではありません。また、日本やアメリカの建物の階数の数え方は地面からの高さが 0 の階が 1 階なので間隔尺度です。例えば、4 階の高さは 2 階の高さの 2 倍ではありません。イギリスで地面の高さの階を ground floor と呼び、その次の階を first floor(1 階)と呼ぶのはおそらく階数を比例尺度にするためではないかと思います。
体重や身長などの現実の事象の多くの計測値は、現実的には正確にその値を計測することができないので離散的な値になりますが、統計学では連続的なデータとみなして処理を行うのが一般的です。
質的データ はコインの 表 と 裏 のように 何らかの分類(カテゴリ)を表すデータです。一般的には文字 で表されますが、学年のクラスの番号を 1 組、2 組のように表す場合のように 数値で表されることもあります。質的データは数値ではないため 平均などの数値的な計算を行うことができません2。
質的データは順序のない名義尺度と、順序がある順序尺度に分類されます。たとえば「犬」、「猫」のような動物の分類は順序がないので名義尺度ですが、アンケートの満足度などの「大いに満足」、「少し満足」、「普通」、「少し不満」、「大いに不満」は順序があるので順序尺度です。
母数と統計量
母数 とは 母集団の特徴 を表す値のことで、平均や分散など が挙げられます。母数は 母集団の全数調査 を行うことができれば 計算できる値 ですが、推計統計学 では 母集団の全数調査 を行うことが 不可能であることが前提 なので、実際には 母数の正確な値を計算することはできません。そのため、母数 は仮に母集団の 全数調査を行うことができた場合 に計算される 仮想的な値 を指します。
母数は母集団の大きさのことであると誤用されることが多いようですが、母集団の性質を表す値という意味である点に注意して下さい。また、標本数が標本の数を表すことから、母集団の数と誤用されたり、別の誤用として分数の分母の数として誤用される場合もあるようです。
統計量 とは 標本 に対して 計算を行う 事で得られた 標本の特徴を表す値 のことで、母数と同様に 平均や分散 などが挙げられます。標本や統計量 は、標本抽出を行うたび に 変化する可能性がある値 です。例えば サイコロを 3 回振る という 標本抽出 を 2 回行った場合 に 1、2、6 と 3、6、6 という 異なる要素を持つ標本 が得られた場合は、それぞれの 標本の平均という統計量 は (1 + 2 + 5) / 3 = 3 と (3 + 6 + 6) / 3 = 5 で異なります。
このように、母数 は 母集団によって 1 つに決まる特定の値 であるのに対し、統計量 は 標本抽出を行うたびに変化 するという 異なる性質がある ため、母数と統計量は 同じ平均や分散 であっても 異なる性質 を持ちます。そのため、母数 は 母平均、母分散 のように 先頭に「母」 を、統計量 は 標本平均、標本分散 のように 先頭に「統計」 をつけることで その違いが明確になるように表記 します。
参考までに 母数 と 統計量 の Wikipedia のリンクを下記に記します。
データの変換
ほとんどの 母数や統計量 は母集団や標本の 要素の値に対して計算を行う 事で求めます3。そのため、母数や統計量を計算するため には 要素が量的なデータである必要 があります。そのような場合は、母数や統計量を計算するため に 質的なデータ を扱う母集団を、量的なデータ を扱う母集団 に変換 してから 分析を行う 必要があります。
具体例として、コインを投げた時に表が出る確率 を 推計統計学で推測 する場合は、下記の表のように 表を 1、裏を 0 に変換 した 母集団を計算 することで、母平均 が 表が出る確率 を表すことになります。
| 変換前の要素の値 | 表 | 裏 |
|---|---|---|
| 変換後の要素の値 | 1 | 0 |
分析を行うために必要 であれば、要素の値が量的データ であっても データの変換を行う ことがあります。
具体例の一つが前回の記事で紹介した モンテカルロ法による円周率の近似値の計算 です。そのアルゴリズムで利用する 母集団 は 正方形内にランダムに配置した点の座標 を表します。点の座標 は (x, y) のように 2 つの連続的な数値 で表されますが、そのままでは点が円の内部にあるか、外部にあるかの区別をつけることはできません。そこで、下記の表のように 2 次元の点の座標 を点が 円の内部にある場合は 1、外部にある場合は 0 という 1 次元の離散的なデータに変換 しました。
| (x, y) の値の性質 | 円の内部の点 $x^2 + y^2 <= 1$ |
円の外部の点 $x^2 + y^2 > 1$ |
|---|---|---|
| 変換後の値 | 1 | 0 |
同様の例としては、血液検査で得られた 複数の検査値 の中から 一つの検査値だけを取り出して利用 するのも データの変換の一種 と考えて良いでしょう。
他にも、1 つの量的データ を 計算で別の量的データに変換 することも良く行われます。例えば、サイコロの 奇数の目が出る確率 を求める場合は 1 ~ 6 までの 数値を 2 で割った値 を求めます。
| 変換前の要素の値 | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| 変換後の要素の値 | 1 | 0 | 1 | 0 | 1 | 0 |
当然ですが、データの変換 を行うと 確率変数 と 確率分布 の 両方が変化 します。上記の例の場合は、下記の表のように確率変数と確率分布が変化します。
| 変換前の確率変数の値 | 1 | 2 | 3 | 4 | 5 | 6 |
|---|---|---|---|---|---|---|
| 変換前の確率 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
| 変換後の確率変数の値 | 0 | 1 |
|---|---|---|
| 変換後の確率 | 1/2 | 1/2 |
確率質量関数
サイコロを 実際に振って出た出目 のように、確率分布に従う確率 で 実際に得られた値 のことを 実現値 と呼びます。確率変数 を $\boldsymbol{X}$ のように 大文字で表記 するのに対し、実現値 は $\boldsymbol{x}$ のように 小文字 で表記します。
離散型確率変数 の 確率分布 を表す 関数 の事を 確率質量関数(PMF: Probability Mass Function)と呼びます。確率質量関数 は 確率変数を $\boldsymbol{X}$、実現値を $\boldsymbol{x}$ と表記した場合に $\boldsymbol{x}$ が出現する確率 を表す関数です。確率質量関数 には下記のような 様々な記法 があり、残念ながら 表記の統一はされていない ようです。また、下記以外の記法もあるようなので興味がある方は調べてみて下さい。本記事では $\boldsymbol{P(X = x)}$ を採用 することにします。
- $P(X=x)$
- $Pr(X=x)$
- $P[X=x]$
- $Pr[X=x]$
- $f_X(x)$
- $p(x)$
それぞれの表記の由来は下記の通りです。
- $\boldsymbol{P}$ と $\boldsymbol{Pr}$ は 確率を表す probability が由来
- 括弧の中 に $\boldsymbol{X=x}$ を記述するのは、確率変数 $\boldsymbol{X}$ が 特定の実現値 $\boldsymbol{x}$ を取った場合の発生確率 という意味を表す
- 括弧 に [] を記述するのは、確率変数が 離散型確率変数 であることを 明確にする という意味がある。また、$f(x)$ のような 通常の関数 は $\boldsymbol{x}$ という値を利用して計算を行う という意味を表すが、$\boldsymbol{X=x}$ を記述 することで確率質量関数が 確率変数 $\boldsymbol{X}$ が 特定の実現値 $\boldsymbol{x}$ を取った場合の確率 を計算するということを明確にするという意味がある
- $\boldsymbol{f}$ は 関数を表す function の頭文字を表し、添字の $\boldsymbol{X}$ はこの関数が 確率変数 $\boldsymbol{X}$ の確率質量関数 であることを表す
- 確率変数が一つしかないことが明確 な場合は $p(x)$ のように 確率変数を省略 することがある
確率質量関数 は 確率変数が従う確率分布 によって 異なる確率を計算する ので、確率変数 $\boldsymbol{X}$ と 確率変数 $\boldsymbol{Y}$ が 異なる確率分布に従う 場合の $\boldsymbol{P(X = 1)}$ と $\boldsymbol{P(Y=1)}$ は 異なる確率を計算する 点に注意して下さい。
$\boldsymbol{P(X=1)}$ の中の $\boldsymbol{X=1}$ という表記 から 1 が実際に抽出されてしまった ことを 意味すると思う人がいるかもしれませんが、$\boldsymbol{X=1}$ は実際に $X$ を 1 にするという代入の意味ではなく、$\boldsymbol{X}$ が 1 になった場合 という 仮定を表します。$\boldsymbol{P(X=1)}$ はまだ 抽出を行う前の予想確率 にすぎず、抽出の結果が確定したことを表さない 点に注意して下さい。
例えばサイコロの 1 の出目の確率を表す場合の $\boldsymbol{P(X=1) = 1/6}$ は、これからサイコロを振った場合 に 1 が出る確率 を意味しています。1 が出てしまった場合の何らかの確率を表すのではありません。
先程の 下記の表の確率分布 の 確率質量関数 は以下のように定義できます4。
| 確率変数 $X$ | 1 | 2 | 3 |
|---|---|---|---|
| 確率 | 1/6 | 3/6 | 2/6 |
- $P(X=1) = 1/6$
- $P(X=2) = 3/6$
- $P(X=3) = 2/6$
なお、確率質量関数 では 括弧の中 に 確率変数のとりうる範囲を記述 する場合があります。例えば $P(\boldsymbol{X <= 2})$ は、確率変数が 2 以下 となる場合の 確率を 表します。上記の場合は $\boldsymbol{P(X <= 2) = P(X=1) + P(X=2) = 4/6}$ になります。
また、確率分布 では すべての事象の確率を合計 すると 必ず 1 になるので、下記の式が常に成り立ちます。ただし、$\boldsymbol{\sum_{x}}$ は $\boldsymbol{x}$ が 確率変数 $\boldsymbol{X}$ の 母数空間 の すべての値を取った場合の合計を計算 するという意味を表します。
$\boldsymbol{\sum_{x} P(X=x) = 1}$
上記の表の場合は下記のように 1 となります。
$\sum_{x} P(X=x)$
$ = P(X=1)+P(X=2)+P(X=3)$
$ = 1/6 + 3/6 + 2/6 = 1$
今回の記事では扱いませんが、2 つの確率変数 $X$、$Y$ が同時に $x$ と $y$ という実現値を取る場合の確率を表す関数を同時確率質量関数と呼び、下記のように記述します。確率変数が 3 つ以上の場合も同様です。
$P(X=x, Y=y)$
参考までに 確率質量関数 の Wikipedia のリンクを下記に記します。
連続型確率変数の確率分布を表す関数の事を確率密度関数(PDF: probability density function)と呼びます。参考までに確率密度関数の Wikipedia のリンクを下記に記します。
独立同分布(i.i.d)
推計統計学 では 母集団を表す確率分布 が下記のような 独立同分布(be independent and identically distributed)という性質を持つことを 前提とすることが良くあります。例えば、推計統計学で用いられる 大数の法則 は 母集団を表す確率分布 が 独立同分布の性質を持つことを前提 とします。なお、独立同分布 は統計学では よく使われる用語 なので、その 頭文字を取って i.i.d. と表記 されることが多いようです。
- 2 つ以上の確率変数 が 互いに独立 している(独立)
- 2 つ以上の確率変数 が 同じ確率分布に従う(同分布)
難しそうなことを言っているように見えるかもしれませんが、それほど難しくない概念なので安心して下さい。
独立 とは、ある 確率変数 が 別の確率変数によって影響されることがない ということを意味します。例えば サイコロ のように、出た目の数 によって 次の出目の確率が変わることがない ということを表します。別の例としては トランプ から カードを 1 枚ランダムに引いて数字を記録 する際に、前回引いたカードを戻す という 復元抽出法 を行う場合です。一方、前回引いたカードを戻さない という 非復元抽出法 の場合は 残りのカードから前回引いたカードの数字の枚数が減る ので、次に同じ数字のカードを引く確率が減少 します。また、復元抽出法であっても、常に一番上のカードを引き、引いたカードを一番下に戻す 場合も同様に 今引いたカードを次に引くことはない ので 次に同じ数字のカードを引く確率が減少 します。
同分布 とは すべての確率変数 が 同じ確率分布に従う ことを表します。例えば サイコロを何度も振る 際に、同じサイコロを使い続ける ということです。途中でサイコロを変更 して 異なる確率分布のサイコロ を振ってしまうと 出目の確率分布が途中で変わってしまう ので 同分布の条件は満たされません。なお、同分布 とは 確率変数がとりうる値の確率がすべて同じ であるという 意味ではない 点に注意して下さい。例えば 1 が 1/2 の確率 で、残りの 2 ~ 5 の出目の確率が 1/10 のような 偏ったサイコロ であっても、毎回そのサイコロを使い続ける場合 は 同分布 とみなされます。
同じサイコロを何度も振る ような、1 つの母集団 から 複数個の標本を無作為に復元抽出 した場合の すべての確率変数 は 独立同分布に従う ことが知られています。前回の記事で紹介した モンテカルロ法による円周率の近似値の計算 で行われる 正方形内へのランダムな点の配置 を行う際の 座標を表す確率変数 も同様に 独立同分布に従います。
参考までに 独立同分布 の Wikipedia のリンクを下記に記します。
母平均
母数や統計量 の中で、最も良く利用される ものが 母平均と標本平均 です。
母平均(population mean)は 母集団 の 要素の平均 を表す値で、平均という用語の一般的な意味と同様に すべての要素の値の合計 を 要素の数で割る ことで計算します。従って、母平均 $\boldsymbol{μ}$ は要素のデータが 量的データの場合 のみ計算することができます。また、母平均などの 母数を表す記号 は 一般的にギリシャ文字で表現 され、母平均 は ギリシャ文字の小文字 の $\boldsymbol{μ}$(ミュー)で表記します。従って、母平均 は 母集団の大きさ を $\boldsymbol{N}$、母集団の要素 を $\boldsymbol{E_1}$、$\boldsymbol{E_2}$、・・・、$\boldsymbol{E_n}$ と表記5すると、下記の式で計算 することができます。
$\boldsymbol{μ = \frac{E_1 + E_2 + ... + E_N}{N} = \frac{1}{N}\sum_{i=1}^{N} E_i}$
上記の計算式を 母集団の要素の種類ごとに分ける と下記の式になります。ただし、$\boldsymbol{\sum_{x}}$ は $\boldsymbol{x}$ が 確率変数 $\boldsymbol{X}$ の 母数空間 の すべての値を取った場合の合計を計算 するという意味を表します。
$\boldsymbol{\sum_{x} \frac{x の個数}{N}x}$
$\boldsymbol{\frac{x の個数}{N}}$ は母集団の中の 要素の値が $\boldsymbol{x}$ の割合 を表すので、母集団から 無作為抽出 を行った際に $\boldsymbol{x}$ が抽出される確率に等しく なります。従って、この式は下記のように 確率質量関数で計算 することができます。
$\boldsymbol{\frac{x の個数}{N} = P(X=x)}$
従って、母平均 は 下記の式で計算 することができます。なお、母集団が 無限母集団 の場合は、母平均は 先ほどの式では計算できない ので 下記の式で計算する必要 があります。
$\boldsymbol{\sum_{x} xP(X=x)}$
上記の式で計算される値は 確率の分野 では 確率変数がとりうる値の平均値、すなわち 平均的に期待される値 を表すので 期待値 と呼びます。 また、確率変数 $\boldsymbol{X}$ の期待値 は $\boldsymbol{E[X]}$ という 記号で表記 されるので、母平均を表す式 は下記のようになります。
$\boldsymbol{μ = E[X] = \sum_{x} xP(X=x)}$
推計統計学 では 母集団 を 確率分布 として考えるので、母平均 を 確率分布の期待値から計算される値 であることを 明確にするため に $\boldsymbol{E[X]}$ と表記することが多いようです。本記事でもそのように表記することにします。
期待値を $E(X)$ のように () で囲って記述する場合もありますが、一般的には [] で囲う場合の方が多いのではないかと思います。
標本平均
標本平均 は母集団から抽出した 標本から計算した平均値 で、標本 が実際に得られた具体的なデータである 実現値の集まり であることから 実際に計算できます。標本平均 は 実現値の平均 であることから、実現値を表す $\boldsymbol{x}$ の上 に 平均を表す記号である横棒 をつけて $\boldsymbol{\bar{x}}$ のように記述します。また、標本の個数 が $\boldsymbol{n}$ の場合の 標本平均 は $\bar{x_n}$ のように表記します。
従って、標本の大きさ が $\boldsymbol{n}$ の標本の 標本平均 $\boldsymbol{\bar{x_n}}$は、標本の各要素 を $\boldsymbol{x_i}$ と表記した場合に、下記の式で計算することができます。
$\boldsymbol{\bar{x_n} = \frac{x_1 + x_2 + ... + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i}$
推計統計学 では 母集団の全数調査を行うことができない のが前提なので、正確な母平均 を 計算することはできません。従って 母平均 は 円周率 のように、正確な値はわからないが 理論上に存在 する 理論値 です。一方、標本平均 は 実際に計算できる値 である点が 大きく異なります。
初めての人には覚えることが多くて大変だと思いますので、今回の記事はここまでにしたいと思います。
今回の記事のまとめ
今回の記事では大数の法則を証明するために必要な統計学の基礎について説明しました。
本記事で入力したプログラム
今回の記事で入力したプログラムはありません
次回の記事
近日公開予定です
-
確率分布は後述する確率質量関数や確率密度関数を表す $P$ で表されるので、ここでは $P$ という記号を用いました ↩
-
クラスの番号のように数値で表された質的データもあります。そのような場合は質的データの平均を計算することはできますが、クラスの番号の平均のような数値は特別な意味を持ちません ↩
-
最も数が多い要素を表す統計量である最頻値は量的なデータに対しても計算することができますが、多くの母数や統計量は質的データに対する計算を行うことはできません ↩
-
6 で割っていることを明確にするため、表の分数は通分を行わないことにしました ↩
-
母集団の要素を $X_i$ のように表記する場合もあるようですが、確率変数と同じ $X$ を利用するのは紛らわしいと思いましたので要素(element) の頭文字の $E$ を用いました ↩