以下の統計検定2級対策動画で用いられているスライドの一部です。
1. 具体例:ECサイトの売上分析
あるECプラットフォームに出店している5店舗の月間売上データがあります。
このデータの偏り、つまり売上が一部の店舗にどれだけ集中しているかを分析してみましょう。
- 店舗A: 10万円
- 店舗B: 20万円
- 店舗C: 50万円
- 店舗D: 80万円
- 店舗E: 140万円
分析の道具:ローレンツ曲線
この分析にはローレンツ曲線というグラフが役立ちます。
- 横軸(X):下位からの店舗数の累積的な割合
- 縦軸(Y):その店舗群が占める売上合計の累積的な割合
この2つの値をプロットして、データの偏りを視覚的に捉えます。
Step 1: グラフを描くための準備
まず、データを売上が低い順に並べ、各軸の値を計算します。
全店舗の売上合計は $10+20+50+80+140 = 300$ 万円です。
店舗名 | 売上(万円) | 横軸(X): 店舗数の累積相対度数 | 売上合計に占める割合 | 縦軸(Y): 売上の累積相対度数 |
---|---|---|---|---|
店舗A | 10 | 1/5 = 0.2 | 10/300 ≅ 0.033 | 0.033 |
店舗B | 20 | 2/5 = 0.4 | 20/300 ≅ 0.067 | 0.033 + 0.067 = 0.100 |
店舗C | 50 | 3/5 = 0.6 | 50/300 ≅ 0.167 | 0.100 + 0.167 = 0.267 |
店舗D | 80 | 4/5 = 0.8 | 80/300 ≅ 0.267 | 0.267 + 0.267 = 0.534 |
店舗E | 140 | 5/5 = 1.0 | 140/300 ≅ 0.466 | 0.534 + 0.466 = 1.000 |
Step 2: グラフの描画
計算した(X, Y)の組をプロットし、線で結びます。
比較のため、「もし全店舗の売上が完全に均等だったら」という理想的な線(均等分布線)も描き加えます。
グラフから何がわかるか?
ローレンツ曲線が均等分布線から下に膨らんでいるほど、データの集中度が高い(分布が不均等である)ことを示します。
この例では、
- 下位40%の店舗 (店舗A, B) で…
- 全体の売上のわずか 10% しか占めていない
ことが視覚的にわかります。
2. "膨らみ"を数値化する:ジニ係数
では、この 「膨らみ具合」 を客観的な 数値 で評価するにはどうすればよいでしょうか?
そこで登場するのが ジニ係数 です。
ジニ係数は、均等分布線とローレンツ曲線で囲まれた領域の面積を使って計算されます。
ジニ係数の計算方法
- A: 均等分布線とローレンツ曲線で囲まれた領域の面積
- B: ローレンツ曲線と軸で囲まれた領域の面積
ジニ係数$G$は、以下の式で定義されます。
$$
G = \frac{A}{A+B}
$$
A+Bは常に0.5なので、次のように簡略化できます。
$$
G = 2A
$$
ジニ係数の解釈
ジニ係数は 0から1 の範囲の値をとります。
-
G = 0 の場合
- 完全に均等(格差なし)
- ローレンツ曲線が均等分布線と一致
-
G = 1 の場合
- 完全に不均等(格差最大)
- 1つの存在が全てを独占
0に近いほど均等、1に近いほど不均等(集中度が高い)ことを示します。
3. 一般化と定義
ここまでの具体例を踏まえ、
用語を一般化して定義します。
定義:ローレンツ曲線
データの集中度や分布の不平等さを表現するために使用されるグラフ。
- 横軸(X):データの累積相対度数
- 縦軸(Y):そのデータが持つ値の合計の累積相対度数
- 均等分布線(完全平等線)からの下方への膨らみで、不均等さの度合いを示す。
定義:ローレン ツ曲線の描き方(一般手順)
-
データの整理
- データを値の小さい順(昇順)に並べ替える。
-
度数分布表の作成
- データを階級に分け、度数や階級値をまとめる。
-
横軸(X)の計算
- 各階級の度数の「累積相対度数」を計算する。
-
縦軸(Y)の計算
- 各階級の「値の合計」の「累積相対度数」を計算する。
-
グラフの描画
- (0, 0)と計算した(X, Y)の組をプロットし、線で結ぶ。
定義:ジニ係数
ローレンツ曲線が示す分布の不均等さを、0から1の数値で定量的に評価する指標。
-
計算式: $G = 2A$
- $A$は、均等分布線とローレンツ曲線で囲まれた領域の面積
-
値の解釈:
- 0: 完全平等
- 1: 完全不平等
まとめ
-
ローレンツ曲線
- データの偏りを可視化する強力なツール。
-
ジニ係数
- 偏りの度合いを客観的な数値で評価する指標。
-
応用範囲
- 所得格差、企業の売上集中度、地域ごとの人口分布など、様々なデータ分析に活用できる。