乗法の中心極限定理と、対数正規分布の自然な出現
「人間の身長」「サイコロの合計値」「誤差の分布」など、加法的なランダム性の結果はよく正規分布に従うことで知られています。
これが
1. 誤差は全て独立に同じ分布に従う
2. 誤差が0のときの一番ノーマルな状態の確率が最大となる
3. 小さすぎるのと大きすぎる誤差は等しい確率でおこる
4. 極端なイレギュラーが起こる確率は0に収束していく
という直感的な条件だけから導けることは、前回の記事で示しました。
では、乗法的なランダム性の結果はどうなるでしょうか?
それが「対数正規分布」です
正規分布と対数正規分布の違いは一言で言うと:
- 加法の結果 → 正規分布
- 乗法の結果 → 対数正規分布
対数正規分布とは、その対数をとると正規分布になるような分布です。
たとえば変数 $( X $) が対数正規分布に従うとは:
$
\log X \sim \mathcal{N}(\mu, \sigma^2)
$
ということです。
加法で正規分布が生じるロジックをおさらい
以前の記事では、以下のような直感的な条件だけから正規分布が導かれることを紹介しました:
- 誤差はすべて独立で同じ分布に従う
- 誤差が0のときが一番起こりやすい
- 小さすぎる誤差と大きすぎる誤差は対称
- 極端に大きな誤差はほとんど起きない
この条件下で最尤推定を行うと、指数関数や ( \sqrt{2\pi} ) のあの形が自然に出てきて、正規分布が導かれました。
対数正規分布の背景にある「乗法的な世界」
一方、対数正規分布の本質は、積に関するランダムネスにあります。
乗法の中心極限定理(Multiplicative CLT)
-
独立な正の確率変数 $( X_1, X_2, \dots, X_n )$ を考えます
-
それらの積をとる:
$
Y = X_1 \cdot X_2 \cdot \cdots \cdot X_n
$ -
両辺の対数をとると:
$
\log Y = \log X_1 + \log X_2 + \cdots + \log X_n
$ -
ここで各 $ \log X_i \ $が独立で分散が有限であれば、中心極限定理が使える!
-
よって:
$
\log Y \xrightarrow{d} \mathcal{N}(\mu, \sigma^2)
\quad \Rightarrow \quad
Y \sim \text{対数正規分布}
$
なぜ工業製品の公差が対数正規なのか?
ある製品の誤差が、加工工程ごとに連鎖的な“倍率”で変動しているとしましょう。
たとえば、穴の直径に毎工程「±3%の誤差」がかかるとすると、全体の誤差は:
$
X = E_1 \cdot E_2 \cdot \cdots \cdot E_n
\quad \text{(各}~E_i~\text{が倍率誤差)}
$
というように、乗法的に蓄積されます。
このとき $\ \log X $ は加法的な形になるので、中心極限定理により正規分布に近づき、
$
X \sim \text{対数正規分布}
$
が成立するわけです。
正規分布と対数正規分布のまとめ
観点 | 正規分布 | 対数正規分布 |
---|---|---|
発生メカニズム | 加法 | 乗法 |
中心極限定理 | $( X_1 + \cdots + X_n )$ | $( X_1 \cdot \cdots \cdot X_n )$ |
log変換 | 不変 | 正規分布になる |
データの特徴 | 負値をとることも | 正の値のみ |
自然に出現する例 | 身長・誤差・試験点数 | 所得・資産・粒径・公差 |
要するに...
1.加法に関して$iid$ならば正規分布が待っており、
2. 乗法に関して$iid$ならば対数正規分布が待っている。