確率変数の分布の特性値
確率変数 $X$ の確率密度関数を $f(x)$ とする.
中央値
$P(x \leq a)=0.5$ となる $a$
最頻値
$f(x)$ が最大となる $x$
期待値, 中央値, 最頻値の関係
左右対称かつ単峰な分布の場合, 期待値, 中央値, 最頻値はすべて一致する.
右に裾が長い分布の場合, 最頻値 < 中央値 < 期待値
左に裾が長い分布の場合, 期待値 < 中央値 < 最頻値



標準偏差
確率変数の値のバラツキを表す指標であり, 確率変数の値の単位と同じ次元を持つ.
$$
\sqrt {V[X]}
$$
四分位範囲
($P(x \leq b)=0.75$ となる $b$) - ($P(x \leq c)=0.25$ となる $c$)
変動係数
期待値に対する期待値からの散らばりの程度を表す指標.
$$
\frac {\sqrt {V[X]}} {E[X]}
$$
標準偏差を期待値で割っているので, 変動係数は単位を持たない. そのため, 異なる単位のデータの散らばりを比較する際に適している.
歪度
分布の歪みの指標.
$$
\frac {E[(X-E[X])^3]} {(V[X])^{3/2}}
$$
分布が左右対称ならば 0, 右に長ければ正 (平均より大きい値に影響されるため), 左に長ければ負 (平均より小さい値に影響されるため).
尖度
標準化した分布の裾の重さの指標
$$
\frac {E[(X-E[X])^4]} {(V[X])^{2}}
$$
正規分布なら3, 正規分布よりも裾が重い場合 3 よりも小さな値(分散が大きくなるため), 裾が軽い場合 3 よりも大きな値(分散が小さくなるため).
同時分布の特性値
相関
2 つの確率変数 $X,Y$ について, $X,Y$ ともに平均よりも大きい値を取りやすい, またはともに平均よりも小さい値を取りやすいとき, $X$ と $Y$ には正の相関があるという. 逆に, $X,Y$ の片方が平均より大きく, もう一方が平均よりも小さい値を取りやすいとき, $X$ と $Y$ には負の相関があるという.
共分散
確率変数 $X,Y$ の相関を表す指標であり, 以下のように表される.
\begin{align}
Cov[X,Y] &= E[(X-E[X])(Y-E[Y])] \\
&= E[XY - XE[Y] - YE[X] + E[X]E[Y]] \\
&= E[XY] - E[X]E[Y] - E[X]E[Y] + E[X]E[Y] \\
&= E[XY] - E[X]E[Y]
\end{align}
正の相関があるとき共分散は正となり, 負の相関があるとき共分散は負となる.
相関係数
共分散の大きさは確率変数の散らばりの大きさに依存するので, 各確率変数を標準偏差で割って共分散を計算したものである. 以下のように表される.
$$
\rho[X,Y] = E \Bigg[\bigg( \frac {X-E[X]} {\sqrt {V[X]}} \bigg) \bigg( \frac {Y-E[Y]} {\sqrt {V[Y]}} \bigg) \Bigg] = \frac {Cov[X,Y]} {\sqrt {V[X]V[Y]}}
$$
相関係数は, -1 以上 1 以下の値を取り, 相関係数の絶対値が 1 に近ければ相関が強く, 0 に近ければ相関が弱いと判断できる.
偏相関係数
2つの確率変数 $X,Y$ それぞれに別の確率変数 $Z$ が影響を与えているとき, $X,Y$ の相関が強くなりやすい. このような相関を疑似相関という.
このような $X,Y$ に影響を与える $Z$ の影響を取り除いた相関係数を偏相関係数といい, 以下で表される.
$$
\rho[X,Y|Z] = \frac {\rho[X,Y] - \rho[X,Z] \rho[Y,Z]} {\sqrt {(1-\rho[X,Z]^2)(1-\rho[Y,Z]^2)}}
$$
条件付き期待値, 条件付き分散
$X$ が与えられたもとでの $Y$ の条件付き期待値は以下で表される.
$$
E[Y|X] = \int_{-\infty}^{\infty} y f_{Y|X}(y|x) dy
$$
$X$ が与えられたもとでの $Y$ の条件付き分散は以下で表される.
$$
V[Y|X] = E[Y^2|X] - (E[Y|X])^2
$$
特性値の性質
確率変数 $X,Y$ と定数 $a,b,c$ について以下が成り立つ.
期待値の性質
$$
E[aX + bY + c] = aE[X] + bE[Y] + c
$$
共分散の性質
$X,Y$ が独立ならば, $Cov[X,Y] = 0, Cov[X,Y] = E[XY] - E[X]E[Y]$ より,
$$
E[XY] = E[X]E[Y]
$$
分散の性質
\begin{align}
V[aX+b] &= E[(aX+b - E[aX+b])^2] \\
&= E[(aX+b - aE[X]+b)^2] \\
&= E[(aX - aE[X])^2] \\
&= E[a^2(X - E[X])^2] \\
&= a^2 E[(X - E[X])^2] \\
&= a^2 V[X]
\end{align}
また,
\begin{align}
V[X+Y] &= E[(X+Y - E[X+Y])^2] \\
&= E[(X+Y - E[X] - E[Y])^2] \\
&= E[\{(X - E[X]) + (Y - E[Y])\}^2] \\
&= E[(X - E[X])^2] + E[(Y - E[Y])^2] + 2E[(X-E[X])(Y-E[Y])] \\
&= V[X] + V[Y] + 2Cov[X,Y]
\end{align}
特に $X,Y$ が独立ならば $Cov[X,Y] = 0$ より,
$$
V[X+Y] = V[X] + V[Y]
$$
繰り返し期待値の法則
\begin{align}
E[E[X|Y]] &= \int_Y E[X|Y] f_Y(y) dy \\
&= \int_Y \int_X x f_{X|Y}(x|y) f_Y(y) dx dy \\
&= \int_Y \int_X x \frac {f(x,y)} {f_Y(y)} f_Y(y) dx dy \\
&= \int_Y \int_X x f(x,y) dx dy \\
&= \int_X x \int_Y f(x,y) dy dx \\
&= \int_X x f_X(x) dx \\
&= E[X]
\end{align}
データの特性値
加重平均
データを $x_1,...,x_n$, 重みを $w_1,...,w_n (w_i > 0, w_1 + ...+ w_n = 1)$ とする. 加重平均は, 観測値 $x_i$ が割合 $w_i$ で得られる場合の全平均を計算したものである.
$$
\sum_{i=1}^{n} w_i x_i
$$
幾何平均
積に関する平均を意味している.
$$
\sqrt[n] {x_1 \times ... \times x_n}
$$
調和平均
割合の平均を意味している.
$$
\frac {n} {\sum_{i=1}^{n} \frac {1} {x_i}}
$$
参考文献
BellCurve. “3-2. 平均・中央値・モードの関係”. 統計WEB. https://bellcurve.jp/statistics/course/4320.html, (2025年4月13日アクセス)