More than 5 years have passed since last update.

散布度で分布の散らばりを表す

Last updated at 2014-04-15Posted at 2014-04-15

離散変数の散らばり

次の 2 表を考察してみましょう。

これは出身地を表す表です。合計人数はいずれも 120 人ですが、それぞれの県の人数には異なりがあります。前者は三県の出身者数がいずれも同じで、後者の表では 80% 以上が埼玉出身となります。

離散変数では前者の表のように各カテゴリーに数が散らばっているほうが散らばりが大きい、多様性に富むと考えます。こういった散らばりを表す統計量が 多様性指数 (index of deversity) です。次の数式で示します。

D = 1 - {\sum_{i=1}^K}p^2_i

このとき k はカテゴリーの数 p は i 番目のカテゴリーの比率です。

この式にあてはめて前者は 0.667 、後者は 0.288 となります。

多様性指数の最大値はカテゴリー数が多くなるほど上限が大きくなります。 質的変動指数 (index of qualitative variation) はこのような欠点を補います。

連続変数の散らばりを算出する際は分散と標準偏差を利用します。これは以前に説明したとおりです。

連続変数において、ある変数の特定の値が分布のどこに位置するかを表す場合、平均値と標準偏差に基づく別の指標を用意します。

これを 標準得点 (standard score) または z 得点と言い、次式で表します。

z_i = \frac {Y_i - \overline{Y}} {s_Y}

z 得点に変換した値の分布は、どんなものでも平均 0 、標準偏差 1 となります。また平均値より高い値は正の値、平均値より低い値は負の値となります。

社会統計学入門 (放送大学教材)
http://www.amazon.co.jp/dp/4595313705