More than 1 year has passed since last update.

確率密度関数を使用して平均値と分散を求める公式の導出

Posted at 2024-08-30

はじめに

確率密度関数 (PDF) は、確率論や統計学で非常に重要な概念です。PDFを使って、連続確率変数の平均値（期待値）や分散を計算することができます。この記事では、その公式の導出と幾何学的・視覚的なイメージを紹介します。

確率密度関数 f(x) に対して、連続確率変数 X の平均値（期待値）μ は次のように定義されます。

$$
\mu = E[X] = \int_{-\infty}^{\infty} x f(x) , dx
$$

平均値は確率密度関数の「重心」に相当します。確率分布の形状に従って、値の重み付き平均をとることで中心を求めることができます。視覚的には、分布の中心を示すポイントです。

分散は次のように定義されます。

$$
\sigma^2 = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) , dx
$$

これを展開すると、次のようになります。

$$
\sigma^2 = \int_{-\infty}^{\infty} \left( x^2 - 2x\mu + \mu^2 \right) f(x) , dx
$$

さらに、これを積分すると：

$$
\sigma^2 = \int_{-\infty}^{\infty} x^2 f(x) , dx - 2\mu \int_{-\infty}^{\infty} x f(x) , dx + \mu^2 \int_{-\infty}^{\infty} f(x) , dx
$$

ここで次のことがわかります：
$$
\int_{-\infty}^{\infty} x f(x) , dx = \mu
$$

$$
\int_{-\infty}^{\infty} f(x) , dx = 1
$$

したがって、分散は次の式で表されます。

$$
\sigma^2 = \int_{-\infty}^{\infty} x^2 f(x) , dx - \mu^2
$$

$$
\int_{-\infty}^{\infty} x^2 f(x) , dx
$$
これは xの2乗の期待値を表しており、データ全体の広がりを示します。幾何学的には、この項は確率分布の「広がりの大きさ」を測る役割を果たします。

$$
-2\mu \int_{-\infty}^{\infty} x f(x) , dx
$$
この項は、平均値 μ の影響を除去するための調整項です。実際には μの2乗の-2倍となり、分散計算の中で平均値がどのようにデータ全体に影響を与えるかを示します。

$$
\mu^2 \int_{-\infty}^{\infty} f(x) , dx
$$
この項は、平均値自体の平方を考慮に入れています。積分の結果が1になるため、これは単に μの2乗です。この項は、全体の基準点としての役割を果たします。

分散は、データのばらつきを測る指標です。視覚的には、分布の広がりの程度を表しており、分散が大きいほどデータが平均から大きく離れていることを意味します。分布の形状によっては、分散が異なる印象を与えることがあります。

確率密度関数を使って平均値と分散を計算する公式は、確率分布の中心とその周りの広がりを理解するために非常に重要です。これらの公式を幾何学的に捉えることで、データの分布の特性をより深く理解できるようになります。