Python
statistics
python3
DataScience

統計学① 基準値、標準偏差をわかりやすく説明します!

そもそも統計学とは

ざっくりとなってしまいますが、母集団から、標本を通して、母集団の状態を調べる学問のようです!

【全国民のなんちゃらの平均】などは、1億2千万の住民をすべて調べているのではなく(中には全部調べているものもあると思いますが)標本を分析して、母集団(この場合は全国民のなんちゃら)はこういう状態だ!と説明しているのですね。

まずは用語の説明をします!

平均(Average(アベレージ))

変数名だとavgというのを見たことがあります!

エックスバー(Avg,xの平均)を求めるには、全てのデータの値をデータの数で割るとでてきます!

\bar{X} = \frac{x_1 + x_2 + x_3 + \dots + x_n}{n}
◎ポイント

平均にも何種類かあるけど、この平均は算術平均相加平均と呼ばれるそうです!


標準偏差(Standard deviation(スタンダード デヴィエーション バリュー))

よく双方の頭文字を取ったstdという変数名で定義されていますね。

標準偏差には、二種類あります。

1つ目は、母数がサンプルとなっている場合です。母集団が対象なので、母集団の標準偏差と呼ばれています!

母集団std = \sqrt{std}^2 = \sqrt\frac{(x_1 - \bar x)^2 + (x_2 - \bar x)^2 + (x_3 - \bar x)^2 +\dots+ (x_n - \bar x)^2}{n} 

2つ目は、母数の1部(標本)が対象となっている場合です。こちらは不偏標準偏差と呼ばれています!

標本std(不偏標準偏差) =\sqrt\frac{(x_1 - \bar x)^2 + (x_2 - \bar x)^2 + (x_3 - \bar x)^2 +\dots+ (x_n - \bar x)^2}{n-1}

基本的に、ルートの中の分子は、【(n個目の値 - 平均)の2条】でも求められますが、サンプルが母数の中にある標本の場合は、分母で $(n - 1)$ を行います。

なぜ、nに対して -1 することになるのか、こちらの文献の説明がとてもわかり易いため、引用させていただきます!

標本から推測した標準偏差は,本当の母集団の標準偏差よりもやや小さい値を取ってしまうことが知られています。これを偏りとかバイアスといいます。なので,標本から推測した標準偏差よりも少しだけ大きい値の方が,推測値として適切なのです。具体的には,標準偏差や分散をもとめるときに,偏差自乗和を人数で割ったのですが,その代わりに人数-1で割ります。一人分少ないと仮定して平均をもとめると思っても結構です。そうすると値が少し大きくなって,推定値として好ましいのです。こうしてもとめる値を不偏標準偏差(分散),明確にすると不偏母標準偏差推定値などといいます。通常,推定値を得るためには,こちらを使います。

参考:【数式なしで見てわかる】標準偏差がどうしてもわからない人へ【卒論・修論執筆者向け】

◎ポイント

標準偏差は、データ(標本)のばらつき具合を示しています!

また、公式の内容自体は同じですが、わかりづらい公式もあります!

1つ目の公式

母集団std = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}

二つ目の公式は

標本std(不偏標準偏差) = \sqrt{\frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2}

内容は一緒なので、好きな方を覚えてみてください(^^)

すごい丁寧な解説を見つけたので共有します!

@kenmatsu4 さん:【【統計学】初めての「標準偏差」(統計学に挫折しないために)


基準値(standard value)

まずは公式から!

stv = \frac{x - \bar x}{std}
◎ポイント

標準偏差や平均を元に基準値は求められます。

2つの基準値から、どちらの方が価値のある数値かを知る事ができます!

詳しくは例題1でご紹介します!


偏差値(deviation value(デビエーションバリュー))

意味は皆さんご存知だと思うので、公式のみ書きます!

T_i = stv(標準偏差)*10 + 50

一旦、練習問題を解いてみよう!

例題1:ASAP高等学校F組で1~5くんの英語のテストは次の状態でした。

{1くん:60,2くん:75,3くん:くん85,4くん:95,5:65}

問1
F組の英語のテストの平均を求めよう!

問2
F組の英語のテストの標準偏差を求めよう!

例題2:ASAP高等学校G組で6~10くんの数学Aのテストは次の状態でした。

{6くん:20,7くん:35,8くん:50,9くん:45,10くん:65}

問1
G組の英語のテストの平均を求めよう!

問2
G組の英語のテストの標準偏差を求めよう!

問3 ※この問題がミソです!
F組の5くんと、G組の10くんのテストは、科目は違いますが同じ点数です。どちらのテストの点数が価値の高い点数になるか双方の基準値を求め、答えなさい。

問4 双方の偏差値を求めなさい。

答え

・例題1問1

\begin{align}
avg&=\frac{60+75+85+95+65}{5}\\
&=\frac{380}{5} = 76点!
\end{align}

・例題1問2

\begin{align}
std&=\sqrt\frac{(60-76)^2+(75-76)^2+(85-76)^2+(95-76)^2+(65-76)^2}{5}\\
&=\sqrt\frac{(-16)^2+(-1)^2+9^2+19^2+(-11)^2}{5}\\
&=\sqrt\frac{256+1+81+361+121}{5}\\
&=12.806...
\end{align}

・例題2問1

avg = \frac{20+35+50+45+65}{5} = \frac{215}{5} = 43点!

・例題2問2

\begin{align}
std&=\sqrt\frac{(20-43)^2+(35-43)^2+(50-43)^2+(45-43)^2+(65-43)^2}{5}\\
&=\sqrt\frac{(-23)^2+(-8)^2+7^2+2^2+22^2}{5}\\
&=\sqrt\frac{529+64+49+4+484}{5}\\
&=15.033...
\end{align}

・例題2問3

\begin{align}
5くんstv&=\frac{65-76}{12.806...}\\
&=-0.858...
\end{align}
\begin{align}
10くんstv&=\frac{65 - 43}{15.003...}\\
&=1.463...
\end{align}

価値の高い点数は、10くんの数学65点ですね!!!

・例題2問4

本当に10くんの点数が優れているのか、偏差値を求めてみます。

5くん

T_i = -0.858... \times 10 + 50 = 41.410...

10くん

T_i = 1.463... \times 10 + 50 =64.634...

10くんの偏差値は約65なので、5くんの約41より優れています!

終わりに

次は確率密度関数をご紹介します!

最後まで読んでいただきありがとうございましたm(__)m!