離散変数の散らばり
次の 2 表を考察してみましょう。
地方 | 人数 | 割合 |
---|---|---|
埼玉 | 40 | 33.3 |
千葉 | 40 | 33.3 |
神奈川 | 40 | 33.3 |
地方 | 人数 | 割合 |
---|---|---|
埼玉 | 100 | 83.3 |
千葉 | 15 | 12.5 |
神奈川 | 5 | 4.2 |
これは出身地を表す表です。合計人数はいずれも 120 人ですが、それぞれの県の人数には異なりがあります。前者は三県の出身者数がいずれも同じで、後者の表では 80% 以上が埼玉出身となります。
離散変数では前者の表のように各カテゴリーに数が散らばっているほうが散らばりが大きい、多様性に富むと考えます。こういった散らばりを表す統計量が 多様性指数 (index of deversity) です。次の数式で示します。
D = 1 - {\sum_{i=1}^K}p^2_i
このとき k はカテゴリーの数 p は i 番目のカテゴリーの比率です。
この式にあてはめて前者は 0.667 、後者は 0.288 となります。
多様性指数の最大値はカテゴリー数が多くなるほど上限が大きくなります。 質的変動指数 (index of qualitative variation) はこのような欠点を補います。
連続変数の散らばり
連続変数の散らばりを算出する際は分散と標準偏差を利用します。これは以前に説明したとおりです。
標準得点
連続変数において、ある変数の特定の値が分布のどこに位置するかを表す場合、平均値と標準偏差に基づく別の指標を用意します。
これを 標準得点 (standard score) または z 得点と言い、次式で表します。
z_i = \frac {Y_i - \overline{Y}} {s_Y}
z 得点に変換した値の分布は、どんなものでも平均 0 、標準偏差 1 となります。また平均値より高い値は正の値、平均値より低い値は負の値となります。
参考
社会統計学入門 (放送大学教材)
http://www.amazon.co.jp/dp/4595313705