こんにちは!
今回は1次検定の問題5に出やすい「確率変数」の対策を行います.
確率変数と確率分布
確率変数とは,ある値を取る確率がわかっている変数のことです.
例えば1枚のコインを2回トスするとき,表と裏の出る確率が同様に確からしいならば,表の出る回数Xとその確率Pとの関係は以下の表のようになります.
| X | 0 | 1 | 2 | 計 |
|---|---|---|---|---|
| P | 0.25 | 0.5 | 0.25 | 1 |
別の例として,1〜6までが書かれた1個の6面サイコロを2回振るとき,それぞれの目の出る確率が同様に確からしいならば,出目の数字の和Yとその確率Pとの関係は以下の表のようになります.
| Y | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 計 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| P | 1/36 | 1/18 | 1/12 | 1/9 | 5/36 | 1/6 | 5/36 | 1/9 | 1/12 | 1/18 | 1/36 | 1 |
このように飛び飛びの確率変数に対して確率が定められる分布を離散確率分布と呼びます.全ての確率の和は必ず1になります.
期待値と分散,共分散,事象の独立
期待値
期待値(Expectation)とは,ある試行を1回行ったときに得られる値の平均であり,確率変数の値と起こる確率の積を全ての場合についてたし合わせることで求めます(重みつき和).期待値は頭文字のEを用いてE[X]などと表します.
上記の例に対して期待値E[X],E[Y]を求めると
E[X] = 0 \times 0.25 + 1 \times 0.5 + 2 \times 0.25 = 1
E[Y] = 2 \times \frac{1}{36} + 3 \times \frac{1}{18} + 4 \times \frac{1}{12} + ... + 12 \times \frac{1}{36} = 7
となります.これは「1枚のコインを2回トスすると大体1回は表が出る」,「サイコロを2つ投げた時の出目の和は大体7あたりになる」ということを表します.直感的にも納得できますね.
もちろん期待値は整数にならないこともあります.例えばサイコロ3個の出目の和の期待値は10.5となります.
分散
分散(Variance)はデータのばらつきを表す指標で,頭文字のVを用いてV[X]などと表します.
分散の求め方はいろいろありますが,最も重要な公式は
V[X] = E[X^2] - (E[X])^2
なので,これを使えるようにしておきましょう.(2乗の平均)-(平均の2乗)と覚えれば逆にしてしまうリスクが減りそうです.センター試験ⅠAでも取り上げられることがありました.
参考:https://www.kyotsutest.net/?recipe_category=2020t
平均の2乗は簡単ですが,2乗の平均はしっかり求めなければなりません.
E[X^2] = 0 \times 0.25 + 1 \times 0.5 + 4 \times 0.25 = 1.5
E[Y^2] = 4 \times \frac{1}{36} + 9 \times \frac{1}{18} + 16 \times \frac{1}{12} + ... + 144 \times \frac{1}{36} = \frac{329}{6}
となるので,X,Yそれぞれの分散は以下のようになります.
V[X] = 1.5 - 1^2 = 0.5 , V[Y] = \frac{329}{6} - 7^2 = \frac{35}{6}
※後述しますが,それぞれのサイコロをA,Bとおいたとき,2つのサイコロのそれぞれの目は互いに影響を及ぼさないため(独立事象),
V[Y] = V[Y_A + Y_B] = V[Y_A] + V[Y_B] = 2V[Y_A]
が成り立ちます.この関係を用いると2乗の平均の計算量が大幅に少なくなります.
標準偏差
数学検定ではあまり気にしないことですが,実は先ほどの分散の値は単位が2乗になっていました.例えば確率変数の表す単位が[点]であった場合,分散は(2乗の平均)-(平均の2乗)で計算したため単位は[点²]です.そこで平方根をとって単位を元に戻した散らばりのことを標準偏差(Standard deviation)として定義します.記号はSを使ってしまうと合計(Summation)と混同しやすいからか,しばしばギリシャ文字のσ(Sigma)が使われます.
\sigma[X] = \sqrt {V[X]}
※平均値と標準偏差が分かれば,テストでお馴染みの偏差値を求めることができます.
自分の得点をx,平均点をμ,標準偏差をσとおくと,偏差値は以下のようになります.
偏差値 = \frac{10 \times (x-\mu)}{\sigma} + 50
ただしこれは高校数学の教科書にも載っておらず,数検1級で出題されることも(私の知る限りでは)ありません...
共分散
共分散(Covariance)は2組の対応するデータ間の関係を表す数値です.確率変数XとYの共分散を表すときはCov[X,Y]のように表記します.
共分散は確率変数X,Yそれぞれの期待値とのずれを掛け合わせ,それらを平均することによって求められることから,以下の式が成り立ちます.
Cov[X,Y] = E((X-E[X])(Y-E[Y]))
この式を展開して整理すると以下のようになります.数検1級で頻出の公式です.
Cov[X,Y] = E[XY] - E[X]E[Y]
導出などは以下のサイトを参考にさせていただきました.
https://math-fun.net/20220319/23190/
相関係数
(ピアソンの積率)相関係数(Correlation coefficient)とは,主に2組の対応するデータ間にある関係の強弱を-1〜+1の範囲で数値化したものです.「相関係数」とだけ言うと,私の研究室ではスピアマンの順位相関係数を用いて精度評価を行っている学生もいますが,数学検定ではピアソンしか出ません.
相関係数は単位のない無次元数であり,Cor(X,Y)やrを用いて以下のように定義されます.
r = \frac{Cov(X,Y)}{\sigma[X] \times \sigma[Y]} (-1 ≦ r ≦ 1)
この値が+1に近づくほど正の相関が強く,0に近づくほど無相関であることから,共通テストでは適切なデータの散布図を選ばせる問題などがよく出ますが,数検1級では出ません.
その他の重要な性質・公式
平行移動と定数倍
例えば6面サイコロで「1が出たら3点」,「2が出たら4点」,...,「6が出たら8点」のように確率変数に定数関数を加える操作を平行移動とします.
定数倍であれば「1が出たら3点」,「2が出たら6点」,...,「6が出たら18点」などです.
このようなとき,期待値や分散に変化はあるでしょうか?
イメージとしては,期待値は平行移動と定数倍いずれの影響も受けて変化しそうですが,分散は平行移動だけでは変わらなそうに思えます.実際は以下のような式で表せます.
E[cX+a] = cE[X] + a, V[cX+a] = c^2V[X]
分散の係数がcの2乗になっているのが意外かもしれませんが,これは分散の節で説明したとおり単位が2乗になっているためです.納得できない方は
V[X] = E[X^2] - (E[X])^2
の公式の右辺のXを(cX+a)に置き換えることで導けます.
(右辺) = E[(cX+a)^2] - (E[cX+a])^2
= E[(c^2+2acX+a^2)] - (cE[X] + a)^2
= c^2E[X^2] + 2acE[X] + a^2E[1] - (c^2(E[X])^2 + 2acE[X] + a^2)
= c^2E[X^2] - (c^2(E[X])^2)
= c^2(E[X^2] - (E[X])^2) = c^2V[X] = (左辺)
また,標準偏差は以下のようになります.cに絶対値がつくことに注意しましょう.
\sigma[cX+a] = \sqrt {V[cX+a]} = \sqrt {c^2V[X]} = |c|\sqrt {V[X]}
試行が独立である場合に成り立つ公式
一方の結果が他方の結果に影響を及ぼさないとき,それらの試行は独立であると言います.
例えば,赤玉と青玉が3個ずつ入った袋から1個ずつ2回玉を取り出す試行を考えます.
この袋から赤玉が取り出される確率について考えてみましょう.
1回目に赤玉を引く確率は当然3/6=1/2です.
ここで1回目に引いた玉を袋に戻すのであれば,2回目で赤玉を引く確率も同様に1/2です.
しかし袋に戻さず2回目を引く場合,1回目に引いた玉によって2回目に赤玉を取り出す確率は変わります.(1回目が赤玉なら2回目赤玉は2/5,1回目が青玉なら2回目赤玉は3/5)
前者(袋に戻すパターン)は独立といえますが,後者(戻さないパターン)は独立ではなく,2回目の結果が1回目の結果に従属していると言います.
独立であるとき,確率変数X,Yに対して以下の式が成り立ちます.
E[XY] = E[X]E[Y] , Cov[X,Y] = 0 , V[X+Y] = V[X]+V[Y]
ちなみに逆(Cov[X,Y] = 0 ➡️ 独立 など)が成り立つとは限りません.
常に成り立つ公式
以下の性質(期待値の和の関係)は確率変数X,Yが独立か否かに関わらず常に成り立ちます.
E[X+Y] = E[X] + E[Y]
また独立でないときも含め,分散の和は一般に以下の式となります.
V[aX+bY] = a^2V[X] + 2abCov[X,Y] + b^2V[Y]
連続型確率分布
離散確率分布に対して,連続した確率変数に対して確率が定められる分布を連続確率分布と呼びます.
※本章は後ほど加筆します
練習問題
1.1〜4の目が等確率で出る正四面体さいころが大小1つずつあります.これら2つのさいころを同時に振り,出た目の和をX,差の絶対値をYとするとき,次の問いに答えなさい.
① Xの分散V[X]を求めなさい.
② XとYの共分散C[X,Y]を求めなさい.
2.確率変数X,Yの分散がともに64であるとき,次の問いに答えなさい.
① X,Yが互いに独立であるとき,2X-3Yの分散V[2X-3Y]を求めなさい.
② X,Yの相関係数が0.75であるとき,X,Yの共分散C[X,Y]を求めなさい.
練習問題解答
1.出目の組み合わせとその確率,X,Yの値を以下の表に示します.
| 組 | (1,1) | (2,2) | (3,3) | (4,4) | (1,2) | (2,3) | (3,4) | (1,3) | (2,4) | (1,4) |
|---|---|---|---|---|---|---|---|---|---|---|
| P | 1/16 | 1/16 | 1/16 | 1/16 | 1/8 | 1/8 | 1/8 | 1/8 | 1/8 | 1/8 |
| X | 2 | 4 | 6 | 8 | 3 | 5 | 7 | 4 | 6 | 5 |
| Y | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 2 | 2 | 3 |
E[X] = 5, E[X^2] = \frac{105}{4}, E[Y] = \frac{5}{4}, E[XY] = \frac{25}{4}
以上より,① V[X] = 5/4,② C[X,Y] = 0
※当然,相関係数も0です.X,Yの散布図を書いてみると相関がないことが分かるはずです.
2.① V[2X-3Y] = 832, ② C[X,Y] = 48