この記事はAIとの対話を通じて私が理解した内容をまとめたものです。統計学の専門家による監修を受けたものではありません。誤りが含まれている可能性があります。正確な定義は教科書・公式テキストでご確認ください。
「確率」がつくと何が変わるのか
統計検定2級の参考書を開くと、いきなり出てきます。
確率変数。
変数はわかります。$x$ に値を代入するやつ。でも「確率」がつくと何が変わるのか。参考書には定義が書いてあるけど、読んでもピンと来なかった。
AIに「確率変数って何ですか、変数との違いから教えてください」と聞いたところから、この記事は始まります。
そこから芋づる式に「統計量って何ですか」「推定量との違いは何ですか」と聞き続けて、やっと整理できた。統計検定2級の試験直前まで、この4つの区別が曖昧でした。同じように詰まっている人がいれば、この記事を渡してあげたい。
変数——ただの箱
一番基本から。
変数は中学の数学で出てきた $x$ や $y$ です。値が変わりうる入れ物。
$$
y = 2x + 3
$$
$x$ に何を入れるかで $y$ が変わる。それだけの話。統計に限った用語ではなく、ただの数学用語です。
ここまでは何も問題ありませんでした。
確率変数——「何が出るかはサイコロ次第」の変数
確率変数は、名前に「変数」とついているけど、普通の変数とは違います。普通の変数は人間が $x = 3$ と代入する。確率変数 $X$ は、値がランダムな仕組みで決まる。
サイコロを1回振った出目を $X$ とすると:
$$
P(X = k) = \frac{1}{6} \quad (k = 1, 2, \ldots, 6)
$$
「次に振ったら何が出るか」がまだ決まっていない状態が確率変数 $X$ で、「今回は4だった」という具体的な値が実現値 $x = 4$ です。
最初にAIに「確率変数って何ですか」と聞いたとき、返ってきたのはこういう言葉でした。
普通の変数 $x$ はあなたが値を決めます。でも確率変数 $X$ は、サイコロを振るという行為が値を決めます。あなたは決められない。
「決めるのが誰か」が違う。変数は人間が決める。確率変数は仕組みが決める。
ここで最初に躓いたのが、大文字と小文字の使い分けでした。
- $X$:確率変数。まだ値が定まっていない概念
- $x$:実現値。実際に出た具体的な数値
参考書でいきなり $\bar{X}$ と $\bar{x}$ が混在していて「何が違うんだ」と思ったんですが、同じ区別です。$\bar{X}$ は「まだ計算していない標本平均という概念」で、$\bar{x}$ は「手元のデータで実際に計算した標本平均の値」。
この大文字・小文字の区別は、統計検定の問題文で地味に効いてきます。見落としていると問題の意味が取れないことがありました。
統計量——データだけで完結する計算
$n$ 個のデータ $X_1, X_2, \ldots, X_n$ を集めたとき、そこから計算できる量を統計量(statistic)と呼びます。
標本平均:
$$
\bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i
$$
標本分散:
$$
S^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2
$$
最大値、中央値、範囲……。データだけから計算が完結するものはすべて統計量です。
ポイントは、未知の母数(母平均 $\mu$ や母分散 $\sigma^2$)を含まないこと。式の中に $\mu$ が出てきたら、それは統計量とは呼べません。
ここで一つ気づいたことがあります。
ノートに「統計量を $T$ と書く」とすらすら書けるんです。でもそれは記号を操作しているだけで、「$T$ が具体的に何を指しているのか」が見えていなかった。
$T = \bar{X}$ と書けば標本平均。$T = S^2$ と書けば標本分散。じゃあ自分が今扱っているデータの $T$ は何なのか。そこまで具体的にイメージできていないまま「統計量はわかった」と思っていた。
記号が書けることと、理解していることは別の話でした。
「統計量って、つまり何ですか」と聞き直したとき、AIはこう返してきました。
手元のデータだけを材料にして計算できる量です。母集団のことは知らなくていい。データさえあれば出せる。
「母集団のことは知らなくていい」という言い方で、やっとイメージが固まりました。$\mu$ や $\sigma^2$ を知らなくても計算できるもの——それが統計量。
もうひとつ、ピンと来なかったのが「統計量も確率変数」という話でした。$X_1, X_2, \ldots, X_n$ が確率変数だから、その関数である $\bar{X}$ も確率変数。サンプルを取り直すたびに値が変わる。
StatPlayの中心極限定理セクションで「Sample」ボタンを何度も押すと、標本平均が毎回違う値を取って、それがヒストグラムに積み上がっていくのが見えます。あれが「統計量は確率変数である」ということです。動かしているうちに「あ、そういうことか」となった。
推定量——目的が加わった統計量
推定量は統計量の一種です。ただし、母集団のパラメータを推定するという目的を持って使う統計量を、とくに推定量と呼ぶ。
標本平均 $\bar{X}$ は統計量です。これを「母平均 $\mu$ の推定に使う」と言った瞬間、$\mu$ の推定量になります。
| 呼び方 | 意味 | 例 |
|---|---|---|
| 統計量 | データだけから計算できる量 | $\bar{X}$, $S^2$, 中央値, 最大値… |
| 推定量 | 母数の推定に使う統計量 | $\bar{X}$($\mu$ の推定量として) |
数式は変わりません。使う文脈が加わることで名前が変わる。
最初は「同じ $\bar{X}$ なのに名前が2つあるのか」と意味がわかりませんでした。でも考えてみれば、同じ人が「父」と「課長」と呼ばれるのと同じ構造です。その人自体は何も変わっていなくて、どの文脈で見ているかが違うだけ。そう整理したら急にわかった。
全体の地図
4つの用語の関係を整理します。
変数(値が変わりうる入れ物)
└─ 確率変数(値がランダムに決まる変数)
└─ 統計量(データだけから計算できる確率変数)
└─ 推定量(母数の推定目的で使う統計量)
上から下に向かって、概念が絞り込まれていきます。
用語の定義だけなら参考書に全部載っています。でも読んだだけでイメージをつかむのは難しかった。AIに聞いて、自分で表にして、StatPlayのアニメーションで動きを見て、やっと見えた。
参考書の太字が全部同じに見えていた頃の自分に、このページを渡してあげたかった。