疑問
P(X=x)\\
P(X\le x)
- $X$ も $x$ も変数なんだから片方でいいじゃん!
- そもそも関数の引数に不等式が来るのオカシイじゃん!
いいわけ
この記事の内容は、僕が「こういうことなんじゃないかなあ」と想像して書いたものです。ソース有りません。想像部分には [要確認] と書いてあります。確率変数周りの話題についてぼかした説明しかしていない教科書しか手元になかったもので……
確率変数 X が指すもの
まず、確率変数 X とは何なのか確認します。
例えば、表が出たら+100点、裏が出たら-100点のコイン投げを考えます。コイン投げにより観測される事象は「表が出る」もしくは「裏が出る」というコインの状態であり、事象自体が数値を(得点を)取るわけではありません。そこで、コインの状態と得点を結び付ける関数を定義します。
X(表)=+100\\
X(裏)=-100
この事象と数値を結び付ける関数のことを大文字の $X$ で、$X$ に事象を代入して得られる値($+100$ や $-100$)を小文字の $x$ で表記します。そして、この $X$ のことを確率変数と呼びます($x$ のことは実現値や観測値と呼びます)。確率変数は変数と言う名前が付いていながら関数なんですね。異なるものを指しているのですから、異なる記号が割り当てられるのは当然です。
確率を表す記号 P が取るもの
$X$ が関数で $x$ が変数ということは、$P(X=x)$ の $X=x$ は関数と変数を比較することになってしまいオカシイですね。新たな疑問が生まれてしまいました……。また、関数っぽい形をしているクセに、括弧の中には不等式(等式含む)が書かれています。一体、$P(\bullet)$ の $(\bullet)$ は何を入れる場所なのでしょうか?
確率を表す記号 $P$ は引数に事象(根元事象の集合)を取ります [要確認]。
P(\verb|[集合]|)
そう考えると、以下の左辺の表記は、右辺の略記なのでしょう [要確認]。
P(X=x)=P(\{\omega\ |\ X(\omega)=x\})\\
P(X\le x)=P(\{\omega\ |\ X(\omega)\le x\})\\
P(a\le X\le b)=P(\{\omega\ |\ a\le X(\omega)\le b\})
$P$ を(高校数学で習うような実数を取る)普通の関数として捉えてしまうといろいろ疑問が湧いてきてしまいますが、集合を取る関数(?)だと考えればスッキリするのではないでしょうか。
期待値を表す記号 E が取るもの
期待値 $E$ の場合には、確率 $P$ のように不等式を指定することはありません。どうやら期待値 $E$ は確率 $P$ とは異なる形式のようです。では、$E(\bullet)$ の $(\bullet)$ は何を入れる場所なのでしょうか?
期待値を表す記号 $E$ は引数に確率変数(各事象に対応する値を算出するための関数)を取ります [要確認]。
E(\verb|[関数]|)
期待値を計算するには各事象に対応する値が必要になるので、事象と値の関係を記述した関数を引数に与えるわけです。値ではなく関数を渡したいので、$X(\omega)$ ではなく $X$ と表記します。
E(X)\\
E((X-E(X))^2)\\
E(e^{tX})
事象ベースで考えれば、期待値は全事象についての和
E(X)=\sum_{\omega\in\Omega}{X(\omega)P(\omega)}
で計算します。しかし、$X$ は事象 $\omega$ と値 $x$ が1対1対応するように定められているので、全事象の代わりに全値についての和
E(X)=\sum_{n=1}^{N}{x_nP(X=x_n)}
で計算することも可能です。実際には後者のやり方で計算することが多く、その場合は $X$ を $x$ に置き換えればいいので $X$ が変数のように見えます。このことも初学者に「$X$ も $x$ も変数なんだから片方でいいじゃん!」と思わせてしまう原因のひとつでしょう。
実際に確率を使うときの表記
大文字の $X$ と小文字の $x$ という表記が生まれてしまう原因は、事象 $\omega$ と値 $x$ を結び付ける必要があったからでした。しかし、実際には「興味があるのは値 $x$ であって事象 $\omega$ はどーでもいい」という場面がたくさんあります。先ほどのコイン投げの例で言えば、私たちの直接の興味は「+100点取れる確率はいくらか?」にあり「表が出る確率はいくらか?」にはありません。そこで $\omega$ は隠してしまい、
p(x)=P(\{\omega\ |\ X(\omega)=x\})
として議論を進めることが実際には多いでしょう。$\omega$ を隠したので $X$ も必要なくなり、結果として確率はただの $x$ の関数として表現されます。あれだけ「$X$ も $x$ も変数なんだから片方でいいじゃん!」に対する回答を説明してきたのに、結局 $x$ だけになってしまいました……
ただし、この表記を使う場合には、確率変数ごとに異なる関数名を付けたほうが良いでしょう。もし「確率だから全部 $p$ で!」としてしまうと、例えば以下のような場合を区別できません。
P(\{\omega\ |\ X(\omega)=1\})=p(1)\\
P(\{\omega\ |\ Y(\omega)=1\})=p(1)
記号 $P$ では確率変数を明記することで標本空間が明らかになるため記号を使い回しても問題ありませんでしたが、確率変数を隠す場合には確率変数ごとに異なる関数名を付けてあげないと区別できません。上記の例では $p_X(1)$、$p_Y(1)$ などとするのが良いでしょう。
まあ PRML なんかを読む限りではガンガン $p$ 使い回してるけど……
まとめ
P(X=x)\\
P(X\le x)
- $X$ も $x$ も変数なんだから片方でいいじゃん!
- ⇒ $X$ は関数、$x$ は変数であり、異なるものを指しているので同じ記号では表せない
- 関数 $X$ と変数 $x$ を比較するのオカシイじゃん!
- ⇒ $X=x$ は $\{\omega\ |\ X(\omega)=x\}$ の略記
- そもそも関数の引数に不等式が来るのオカシイじゃん!
- ⇒ 事象を指定するために、事象が満たすべき条件を指定しているだけ
参考
- 鈴木武, 山田作太郎. 数理統計学 ―基礎から学ぶデータ解析―. 内田老鶴圃 (2008).
- 日本統計学会. 日本統計学会公式認定 統計検定1級対応 統計学. 東京図書 (2015).
- 確率の記法 - 機械学習の「朱鷺の杜Wiki」
- カタヅケ主義者と昔風の関数、それとコミュ障 - 檜山正幸のキマイラ飼育記