Edited at

統計用語の英単語帳

統計の入門レベルの項目を復習するためのノート


度数:frequency

・観測値の数


代表値:averages


平均:mean


算術平均:arithmetic mean

・いわゆる平均

\bar x = \frac{1}{n} \sum x_i


幾何平均:geometric mean

・上昇率の平均など

x_G=\sqrt[n] \prod x_i


調和平均:harmonic mean

・速度の平均など

$$\frac{1}{x_H}=\frac{1}{n}\sum\frac{1}{x_i}$$


中央値:median


四分位: quantile

・ソートした後の下からの順位で何%の位置か

第2四分位点 $Q_2$ 50%tile = median

第1四分位点 $Q_2$ 25%分位点

第3四分位点 $Q_2$ 75%分位点


最頻値: mode

右に歪んだ分布(=右裾の長い分布)は一般的に

$$Mean \geq Median \geq Mode$$

一般的に異常値に大きく左右されないという点でMedianが代表値として使われることが多い


平均偏差

$\bar x$:平均

d=\frac{1}{n} \sum |x_i - \bar x|


分散

S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar x)^2


標準偏差

S=\sqrt{S^2}=\sqrt{\frac{\sum(x_i-\bar x)^2}{n}}


2次元のデータ

2次元データの直線への当てはまりの良さを調べる


相関係数 correlation coefficient

ピアソンの積率相関係数

r_{xy}=\frac{\sum(x_i-\bar x)(y_i - \bar y)}{\sqrt{\sum(x_i-\bar x)^2}\sqrt{\sum(y_i-\bar y)^2}}

$rx_{xy}=1$ :正の完全相関 $y=bx+a(b>0)$

$rx_{xy}=-1$ :負の完全相関 $y=-bx+a(b<0)$


最小二乗法 method of least squares

xがyを左右ないし決定するとき

xを独立変数、説明変数

yを従属変数、非説明変数

という

最小二乗法は

二乗和

.math

L=\sum \{y_i-(bx_i+a)\}^2



Lを最小にするa,bを求める

得られた方程式をyのx上への回帰方程式 regression equation

bは回帰直線の傾きで回帰係数 regression coefficient


決定係数 coefficient of determination

b=r_{xy}\frac{S_y}{S_x}

が成立する

$r^2$が1に近いほど(rが+-1に近いほど)直線関係が強い

$r^2$を決定係数と呼ぶ


確率


確率の公理主義的定義 axiomatic definition

- すべての事象Aに対して$0 \leq P(A) \leq 1$

- $P(\Omega)=1$

- たがいに背反な事象$A_1,A_2,\cdots$に対して

$$P(A_1 \cup A_2 \cup \cdots) = P(A_1)+P(A_2)+ \cdots $$

*つまり確率とはある種の測度と言える


条件付き確率 conditional probability

Bを条件とするAの条件付き確率

P(A|B)=\frac{P(A \cap B)}{P(B)}

AとBが同時に起こる確率のうちBがすでに起きている


独立性 independent

Aの起きる確率P(A)がBの起きた如何によらない

$$P(A)=P(A|B)$$

とき独立であるという


ベイズの定理

$$P(H_i|A)=\frac{P(H_i)\cdot P(A|H_i)}{\sum P(H_j)\cdot P(A|H_j)}$$

$$P(A)=\sum P(H_j)\cdot P(A|H_j)$$

$P(H_i)はH_i$の事前確率 prior probability $P(H_i|A)はH_i$の事後確率 posterior probability

事前事後はAが起こる事象を基準にしている


確率変数

ある確率分布で取りうる値の変数を確率変数 random variableと呼ぶ

連続型の確率変数

$$P(a \leq X \leq b)=\int_{a}^{b}f(x)dx$$


確率密度関数 probability density function

$$

\forall x,f(x) \geq0 \land \int_{-\infty}^{\infty}f(x)dt=1

$$

f(x)をXの確率密度関数


確率分布


指数分布 exponential distribution

$$f(x)= \lambda e^{-\lambda x} (x \geq0), 0 (x<0)$$


歪度 skewness

3乗

正ならば右裾が長く、負なら左裾が長い


尖度 kurtosis

4乗

正規分布の$\alpha_4=3$と比較して

$\alpha_4-3$が正なら尖って、負なら丸く鈍い形をしている


離散型の確率分布


超幾何分布


二項分布


ベルヌーイ分布


ポアソン分布


幾何分布


負の二項分布


離散一様分布


連続型の確率分布


正規分布

3シグマ範囲: 997/1000が含まれる(3/1000)


指数分布

待ち時間分布

故障率が一定の機器の故障までの時間


ガンマ分布


ベータ分布


一様分布


コーシー分布


対数正規分布


パレート分布


ワイブル分布


大数の法則 low of large numbers

多くの標本を取れば母集団の平均に近づいていく

多くのサンプルをとるべき根拠


中心極限定理 central limit theorem

$S_n=X_1+X_2+\cdots + X_n$

母集団がどんな分布であれ標本数が多くけば正規分布に近づいていく

大数の法則は平均だけを規定するが、分布の様子までわかるので大数の法則よりも強い定理


χ分布

$Z_1,Z_2,\cdots Z_k$が独立な正規分布N(0,1)に従うとき

$$\chi^2(k)=Z_1^2+Z_2^2+\cdots + Z_n^2$$

を自由度kのχ二乗分布という


t分布


推定


仮説検定


回帰分析


参考

復習に使ったテキストがとても良かった

・わかりやすく読みやすい

・単語に英訳がついてる

・図表とサンプルが多い

ひととおり内容を押さえるために一読をオススメ

統計学入門 (基礎統計学Ⅰ) 東京大学教養学部統計学教室 https://www.amazon.co.jp/dp/4130420658/ref=cm_sw_r_tw_dp_U_x_dxEOCb0V8NTC3