統計を勉強しているが、期間が空くと公式とかけっこう忘れちゃう。
なので自分用に基礎的な公式をまとめてみる。
ついでにTeX記法を使って数式を書く練習をする。
随時更新していく予定。
平均
- 言わずもがな。
\bar{x} = \frac{1}{n}(x_1 + x_2 + x_3 + \cdot \cdot \cdot + x_n) = \frac{1}{n}\sum_{i=1}^{n} x_i
\bar{x}
= \frac{1}{n}(x_1 + x_2 + x_3 + \cdot \cdot \cdot + x_n)
= \frac{1}{n}\sum_{i=1}^{n} x_i
分散
- データの散らばりの度合いを表す値。
s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2
s^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2
標準偏差
- これもデータの散らばりの度合いを表す値。
- 分散との違いや関係はそのうち別の記事に書く予定。
s = \sqrt{s^2}
s = \sqrt{s^2}
標準化得点(Z得点)
- 平均が0、分散が1となるように変換した値。
Z得点 = \frac{x_i - \bar{x}}{s}
Z得点 = \frac{x_i - \bar{x}}{s}
偏差値(T得点)
- 平均が50、標準偏差が10となるように変換した値。
T得点 = Z得点 \times 10 + 50
T得点 = Z得点 \times 10 + 50
変動係数
- 相対的な散らばりの度合いを表す値。
- 単位や平均が異なるデータの散らばりの度合いを比較する際に有用。
CV = \frac{s}{\bar{x}}
CV = \frac{s}{\bar{x}}
ジニ係数
- ローレンツ曲線をもとに不平等さを測る指標。
- 0に近づくほど平等。1に近づくほど不平等。
- ローレンツ曲線についてはそのうち別の記事に書く予定。
Gini = (完全平等線とローレンツ曲線との間の面積) \times 2
Gini = (完全平等線とローレンツ曲線との間の面積) \times 2
共分散
- 2種類のデータの関係の強さを表す指標。
s_{xy} = \frac{1}{n}\sum_{i=1}^{n}(x_i -\bar{x})(y_i - \bar{y})
s_{xy} = \frac{1}{n}\sum_{i=1}^{n}(x_i -\bar{x})(y_i - \bar{y})
相関係数
- 2種類のデータの直線的関係の強さを表す指標。
- -1から1までの値をとる。
r_{xy}
= \frac{s_{xy}}{s_x s_y}
= \frac{\sum_{i = 1}^n (x_i - \bar{x})(y_i - \bar{y})}
{\sqrt{\sum_{i = 1}^n (x_i - \bar{x})^2}\sqrt{\sum_{i = 1}^n (y_i - \bar{y})^2}}
=\frac{1}{n}\sum_{i=1}^n \frac{x_i - \bar{x}}{s_x} \cdot \frac{y_i - \bar{y}}{s_y}
r_{xy}
= \frac{s_{xy}}{s_x s_y}
= \frac{\sum_{i = 1}^n (x_i - \bar{x})(y_i - \bar{y})}
{\sqrt{\sum_{i = 1}^n (x_i - \bar{x})^2}\sqrt{\sum_{i = 1}^n (y_i - \bar{y})^2}}
=\frac{1}{n}\sum_{i=1}^n \frac{x_i - \bar{x}}{s_x} \cdot \frac{y_i - \bar{y}}{s_y}
偏相関係数
- 2つの変数の相関が第3の変数の影響を受けている場合に、その第3の変数の影響を取り除いて求めた相関係数。
r_{xy\cdot z}
= \frac{r_{xy} - r_{xz}r_{yz}}
{\sqrt{1 - r_{xz}^2} \sqrt{1 - r_{yz}^2}}
r_{xy\cdot z}
= \frac{r_{xy} - r_{xz}r_{yz}}
{\sqrt{1 - r_{xz}^2} \sqrt{1 - r_{yz}^2}}