こんにちは,株式会社Nospare・千葉大学の小林です.今回は,所得の分布をモデル化するためによく用いられる,一般化ベータ分布と呼ばれる確率分布ととそのファミリーに含まれる確率分布について紹介したいと思います.
一般化ベータ分布
まず,一般化ベータ分布(GB)の確率密度関数は次のように与えられます:
f_{GB}(y)=\frac{|a|y^{ap-1}(1-(1-c)(y/b)^a)^{q-1}}{b^{ap}B(p,q)(1+c(y/b)^a))^{p+q}}, \quad 0<y^a<\frac{b^a}{1-c}.
GBのパラメータは5つあり,$a\in\mathbb{R}$,$0\leq c\leq 1$,$b,p,q>0$となっています.通常,所得は正の実数値を取るものと仮定されますが,$c<1$のときには,$y$のサポートの上限が有限となります.これらのパラメータの値を変化させることで,(理論上)様々な分布の形を柔軟に実現することが可能です.GBは通常のベータ分布に従う変数$Z\sim Beta(p,p)$を
b\left(\frac{Z}{1-cZ}\right)^{1/a}
と変換することで得ることができます.
この5パラメータGBは,あるパラメータをある値に固定したり,極限を考えたりすることで様々な確率分布が内包されていることが知られています(下図,出典はMcDonald and Ransom, 2008; `The generalized beta distribution as a model for the distribution of income: estimation of related measures of inequality').GBのジニ係数は解析的に求めることはできず,数値積分を利用して計算しますが,4パラメータ以下の分布ではジニ係数の解析的な形が知られています.
4パラメータのファミリー
GBのパラメータ$c$の値を$0$あるいは$1$と固定すると,以下の2つの4パラメータの分布を得ることができます.
第1種一般化ベータ分布
第1種一般化ベータ分布(GB1)は,GBで$c=0$とすると得ることができます.
f_{GB1}(y)=\frac{|a|y^{ap-1}(1-(y/b)^a)^{q-1}}{b^{ap}B(p,q)}, \quad 0<y^a<b^a.
ジニ係数は
G_{GB1}=\frac{B(2p+1/a,q)}{B(p,q)B(p+1/a,q)p(ap+1)}\times _4F_3 \left[
\begin{split}
2p+1/a,p,p+1/a,1-q;1\\
2p+q+1/a,p+1,p+1,p+1/a+1;
\end{split}
\right]
で与えられます.ここで,$B(\cdot,\cdot)$はベータ関数,$_pF_q[;;]$は超幾何関数を表します.
GB1の直接的な特殊形あるいは極限形として,第1種ベータ分布,一般化ガンマ分布,パレート分布が含まれます.
第2種一般化ベータ分布
GB1と同様に,第2種一般化ベータ分布(GB2)は,GBで$c=1$とすると得ることができます.
f_{GB2}(y)=\frac{|a|y^{ap-1}}{b^{ap}B(p,q)(1+(y/b)^a)^{p+q}}, \quad y >0
ジニ係数もGB1と同様に,
G_{GB2}=\frac{B(2p-1/a,q)}{B(p,q)B(p+1/a,q-1/a)}\times\left( \frac{1}{p} \ _3F_2 \left[
\begin{split}
1,p+q,2p+1/a;1\\
p+1, 2(p+q);
\end{split}
\right]
- \frac{1}{p+1/a}\ _3F_2 \left[
\begin{split}
1,p+q,2p+1;1\\
p+1/a+1, 2(p+q);
\end{split}
\right]
\right)
となります.
GB2は実証分析でもよく用いられており,GB1よりも所得分布への当てはまりがいいと経験的に知られています.GB2の直接的な特殊形あるいは極限形として,第2種ベータ分布,一般化ガンマ分布,Singh-Maddala分布,Dagum分布が含まれます.
3パラメータのファミリー
上の図にもあるように,4パラメータのファミリーのパラメータの一部をさらに固定,あるいはパラメータの値の極限を考えることで,3パラメータのファミリーを得ることができます.
第1種ベータ分布
第1種ベータ分布(B1)は,GB1で$a=1$とすると得ることができ,確率密度関数は
f_{B1}(y)=\frac{y^{p-1}(b-y)^{q-1}}{b^{p}B(p,q)}, \quad 0<y<b.
となります.B1の極限形としてガンマ分布が含まれます.
第2種ベータ分布
第2種ベータ分布(B2)も,B1と同様に,GB2で$a=1$とすると得ることができ,確率密度関数は
f_{B2}(y)=\frac{y^{p-1}}{b^{p}B(p,q)(1+y/b)^{p+q}}, \quad y >0
となります.B2の極限形としてガンマ分布が含まれます.
一般化ガンマ分布
このファミリーにおける一般化ガンマ分布(GG)は,GB1あるいはGB2で$b=q^{1/a}\beta$とし,$q\rightarrow 0$の極限を考えることで得ることができます.確率密度関数は
f_{GG}(y)=\frac{y^{ap-1}e^{-(y/\beta)^a}}{\beta^a\Gamma(p)}, \quad y >0
で,ここで$\Gamma(\cdot)$はガンマ関数です.
GGの直接的な特殊形あるいは極限形として,対数正規分布,ガンマ分布,ワイブル分布が含まれます.
ジニ係数は,
G_{GG}=\frac{1}{2^{2p+1/a}B(p,p+1/a)}\times\left( \frac{1}{p} \ _2F_1 \left[
\begin{split}
1,2p+1/a;\frac{1}{2}\\
p+1;
\end{split}
\right]
- \frac{1}{p+1/a}\ _2F_1 \left[
\begin{split}
1,2p+1/a;\frac{1}{2}\\
p+1/a+1;
\end{split}
\right]
\right)
となります.
Singh-Maddala分布
Singh-Maddala分布(SM)は,所得分布の文脈で頻出する3パラメータの確率分布で,所得データに対する当てはまりがよいことが知られており,GB2で$p=1$と固定することで得られます.確率密度関数は
f_{SM}(y)=\frac{|a|qy^{a-1}}{b^{a}(1+(y/b)^a)^{q+1}}, \quad y >0
で与えられ,ジニ係数は
G_{SM}=1-\frac{\Gamma(q)\Gamma(2q-1/a)}{\Gamma(q-1/a)\Gamma(2q)}
となります.SMの極限としてワイブル分布が含まれます.
Dagum分布
Dagum分布(DA)も,所得分布の文脈で頻出する3パラメータの確率分布で,所得データに対する当てはまりがよいことが知られており,SMとよく当てはまりの比較がなされます.DAはGB2で$q=1$と固定することで得られます.確率密度関数は
f_{DA}(y)=\frac{|a|py^{ap-1}}{b^{ap}(1+(y/b)^a)^{p+1}}, \quad y >0
で,ジニ係数は
G_{SM}=\frac{\Gamma(p)\Gamma(2p+1/a)}{\Gamma(p+1/a)\Gamma(2p)}-1
で与えられます.
2パラメータのファミリー
最後に,さらにパラメータの値を固定するか極限を考えることで2パラメータのファミリーを得ることができます.これらの確率分布はよく知られたものたちでしょう.
- パレート分布:GB1で$a=-1$,$q=1$とする
- 対数正規分布:GGで$a\rightarrow0$とする
- ガンマ分布:B1で$q\rightarrow\infty$,GGで$a=1$,あるいはB2で$q\rightarrow\infty$とする
- ワイブル分布:GGで$p=1$,あるいはSMで$q\rightarrow\infty$とする
おわりに
統計学の応用分野によっては,あまりスタンダードはないような確率分布がよく用いられることがあります.所得分布もその例外ではなく,例えばSingh-Maddala分布など,その分野の人には知られていても,一般的にはちょっとマニアックな確率分布がポピュラーだったりします.最近では$\kappa$分布などといった,よりマニアックな分布が提案されていたりもしています.
データサイエンス研修,研究に必要なデータ収集やります!
株式会社Nospareではベイズ統計学に限らず統計学の様々な分野を専門とする研究者が所属しており,新たな知見を日々追求しています.統計アドバイザリー,ビジネスデータの分析,データサイエンス研修につきましては弊社までお問い合わせください.また主に社会科学分野における実証研究に必要なデータ収集サービスも行っておりますので,こちらもぜひお問い合わせください.