統計を普通にしていればそこまで当たることもないのですが、統計検定で「ジニ係数」が出てきたため学びました。
用語として知っているよ!って方でも実際にどのような計算が行われているのか?という方(=私)のために簡単にまとめました。
※普通に機械学習とかでマストで知っておかなければいけないとは現時点では思ってないですし、
統計検定のような問題をとく状況にない限り、出てきたときに調べるスタンスで十分と素人の私は考えております。
用語の意味
ざっくりと意味を言えば、「理想とする状態からどのくらい乖離しているのか?」ということ。
経済学で所得格差の広がり具合をジニ係数で表現したりします(1が激ヤバの状態→0はみんなhappy)
ちゃんとした定義を野村証券のサイトから引用すると、
「ジニ係数は、イタリアの統計学者コラド・ジニにより考案された所得などの分布の均等度合を示す指標で、国民経済計算等に用いられる。」
引用元: ジニ係数(じにけいすう)
です。
時に係数の算出する過程
必要な準備として、五分位数(全体を5等分し、20%, 40%, 60%, 80%, 100%の区間に分ける)と、ローレンツ曲線・完全平等線が必要です。
※かならずしも五分位数でなくても良いです。今回は例として五分位数を使うため、五分位数を使っているものを想定して話を進めます。
- x軸には累積度数として、0.2, 0.4, 0.6, 0.8, 1と設定し、y軸は対象としたいデータの累積度数とし、プロットしていきます。(ローレンツ曲線)
- 完全平等線として、y = xの直線を引きます。
- 完全平等線とデータ点をつなぎ合わせた線で囲まれた面積の2倍したものがジニ係数
さすがにこれをいつもの雑なグラフを作るのは面倒大変なので、引用させていただきます。
引用元: 2-5. ジニ係数
ちなみに、通常の見方はx軸に対して、プロットされている点を参照し、そこからy軸方向に向かったときにぶつかる完全平等線との乖離が実際の感覚となります。
引用元: 2-5. ジニ係数
上記の例で言えば、x = 0.8のときプロットは0.47くらいですが、完全平等線が0.47を通るのはそのままx=0.47であるため、
本来47%くらいのデータ点でとるはずのものを約80%くらいのデータで取り合い、残りの約5割のものを残りの20%でぬくぬくと分け合っていると捉えることができます。
噛み砕いて言えば、
100人でパンを分けるときに、下から80人で47%のパンを分け合い、残りの20人で53%のパンを分け合うため、いかに裕福な人がパンを食べれているか?が伺えます
参考にさせていただいた記事
余談
せっかくなので、2018年の所得格差のジニ係数ランキングを調べてみました。
ジニ係数が一番大きい(=格差やばい)のは南アフリカの0.62で、日本は0.33くらいでした(ファクトチェックなどはしてないので、興味ある方はぜひご自身でも調べてみると面白いと思います!)
参考文献: 世界のジニ係数 国別ランキング・推移