LoginSignup
0
0

More than 5 years have passed since last update.

散布度で分布の散らばりを表す

Last updated at Posted at 2014-04-15

離散変数の散らばり

次の 2 表を考察してみましょう。

地方 人数 割合
埼玉 40 33.3
千葉 40 33.3
神奈川 40 33.3
地方 人数 割合
埼玉 100 83.3
千葉 15 12.5
神奈川 5 4.2

これは出身地を表す表です。合計人数はいずれも 120 人ですが、それぞれの県の人数には異なりがあります。前者は三県の出身者数がいずれも同じで、後者の表では 80% 以上が埼玉出身となります。

離散変数では前者の表のように各カテゴリーに数が散らばっているほうが散らばりが大きい、多様性に富むと考えます。こういった散らばりを表す統計量が 多様性指数 (index of deversity) です。次の数式で示します。

D = 1 - {\sum_{i=1}^K}p^2_i

このとき k はカテゴリーの数 p は i 番目のカテゴリーの比率です。

この式にあてはめて前者は 0.667 、後者は 0.288 となります。

多様性指数の最大値はカテゴリー数が多くなるほど上限が大きくなります。 質的変動指数 (index of qualitative variation) はこのような欠点を補います。

連続変数の散らばり

連続変数の散らばりを算出する際は分散と標準偏差を利用します。これは以前に説明したとおりです。

標準得点

連続変数において、ある変数の特定の値が分布のどこに位置するかを表す場合、平均値と標準偏差に基づく別の指標を用意します。

これを 標準得点 (standard score) または z 得点と言い、次式で表します。

z_i = \frac {Y_i - \overline{Y}} {s_Y}

z 得点に変換した値の分布は、どんなものでも平均 0 、標準偏差 1 となります。また平均値より高い値は正の値、平均値より低い値は負の値となります。

参考

社会統計学入門 (放送大学教材)
http://www.amazon.co.jp/dp/4595313705

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0