はじめに
東北大学/株式会社Nospareの石原です.本記事では,パネルデータモデルの識別・推定方法を紹介します.まず,係数が時間に依存しない一般的な線形モデルの識別・推定方法を紹介し,その後,係数が時間に依存するモデルやノンパラメトリックモデルについて考えます.最後に,より複雑なパネルデータモデルの識別についての自分の研究結果を簡単に紹介します.
固定効果モデル
まず,次のような単純な固定効果モデルを考えます:
$$ Y_{it} = X_{it}^{\top} \beta + \alpha_i + u_{it}, \ \ \ i = 1, \ldots, n, \ \ t = 1,2 \tag{1}$$
ここで,$u_{it}$ は時間に依存する観測できない誤差項で,$\alpha_i$ は固定効果と呼ばれる時間に依存しない誤差項です.簡単のため,2期間のデータしかないという状況を考えます.このとき,次の2つの条件の下で $\beta$ が識別できることが知られています:
- $t=1,2$ に対して,$E[u_{it}|X_{i1},X_{i2}]=0$が成り立つ.
- $E[(X_{i2}-X_{i1})(X_{i2}-X_{i1})^{\top}]$ は正則である.
1つ目の条件は,時間に依存する誤差項 $u_{it}$ が全ての期の説明変数と相関しないことを仮定しています.これは $E[u_{it}|X_{it}]=0$ より強い条件であり,強外生の仮定と呼ばれています.2つ目の条件は,説明変数が時間を通じて変化することを仮定しています.もし説明変数の中に1期も2期も全く同じ値を取る変数が存在すると,この仮定は満たされません.
次に,この2つの条件の下で,$\beta$ が識別できることを示します.1期と2期のモデルの差分を取ると,
$$ Y_{i2}-Y_{i1} = (X_{i2}-X_{i1})^{\top} \beta + u_{i2}-u_{i1} $$
が得られます.ここで,両辺に $(X_{i2}-X_{i1})$ をかけて期待値を取ると,強外生の仮定から
$$ E[(X_{i2}-X_{i1})(Y_{i2}-Y_{i1})] = E[(X_{i2}-X_{i1})(X_{i2}-X_{i1})^{\top}] \beta $$
が成り立ちます.$E[(X_{i2}-X_{i1})(X_{i2}-X_{i1})^{\top}]$ は正則であるので,この式から $\beta$ が識別できることが分かります.また,この識別結果から $Y_{i2}-Y_{i1}$ を $X_{i2}-X_{i1}$ に回帰することで $\beta$ を推定できることも分かります.
時間効果の存在する線形モデル
次に,時間効果の存在する次のモデルを考えます:
$$ Y_{it} = \gamma_t + X_{it}^{\top} \beta_t + \alpha_i + u_{it}, \ \ \ i = 1, \ldots, n, \ \ t = 1,2 \tag{2}$$
モデル (1) との違いは,$\gamma_t$ が存在することと説明変数の係数 $\beta_t$ が時間で変化することです.モデル (1) と同様に,このモデルでも強外生の仮定が成り立っていると仮定します.このとき,$Z_i = (1,-X_{i1}^{\top}, X_{i2}^{\top})^{\top}$,$\theta = (\gamma_2 - \gamma_1, \beta_1^{\top}, \beta_2^{\top})^{\top}$とすると,
\begin{align}
Y_{i2}-Y_{i1} & = \gamma_2 - \gamma_1 + X_{i2}^{\top} \beta_2 - X_{i1}^{\top} \beta_1 + u_{i2} - u_{i1} \\
& = Z_i^{\top} \theta + u_{i2} - u_{i1}
\end{align}
が成り立ちます.ここで,強外生の仮定から $Z_i$ と $u_{i2}-u_{i1}$ は無相関なので,$E[Z_i Z_i^{\top}]$ が正則なら $\theta$ が識別できます.したがって,モデル (1) とほとんど同じ仮定の下で,モデル (2) の $\gamma_2 - \gamma_1$,$\beta_1$,$\beta_2$ を識別できることが分かります.追加の仮定がない場合は $\gamma_1$ と $\gamma_2$ を識別することはできませんが,$E[\alpha_i]=0$ という仮定を置けば $\gamma_1$ と $\gamma_2$ を識別することもできます.この識別結果から,$Y_{i2}-Y_{i1}$ を $Z_i = (1,-X_{i1}^{\top}, X_{i2}^{\top})^{\top}$ に回帰すれば $\gamma_2 - \gamma_1$,$\beta_1$,$\beta_2$ を推定できます.
ノンパラメトリックモデル
最後に,次のノンパラメトリックモデルを考えます:
$$ Y_{it} = g_t( X_{it}) + \alpha_i + u_{it}, \ \ \ i = 1, \ldots, n, \ \ t = 1,2 \tag{3}$$
ここで,$g_t(x)$ という関数にはパラメトリックな仮定は置いていません.モデル (3) はモデル (1),(2) と比較すると少し複雑なモデルに見えますが,モデル (1),(2) と同様に強外生の仮定があれば識別することができます.$(X_{i1},X_{i2})$ のサポートを $\mathcal{X}$ とすると,強外生の仮定から
$$
E[Y_{i2}-Y_{i1}|X_{i1}=x_1, X_{i2}=x_2] \ = \ g_2(x_2) - g_1(x_1), \ \ \ (x_1, x_2) \in \mathcal{X}
$$
が成り立ちます.したがって,もし $(x_1,x), (x_1,x') \in \mathcal{X}$ を満たす $x_1$ が存在するなら,
\begin{align}
g_2(x)-g_2(x') & = E[Y_{i2}-Y_{i1}|X_{i1}=x_1, X_{i2}=x] \\
& \ \ \ \ - E[Y_{i2}-Y_{i1}|X_{i1}=x_1, X_{i2}=x']
\end{align}
となります.以上から,$(X_{i1},X_{i2})$ のサポート $\mathcal{X}$ が適当な条件を満たせば,任意の $x, x'$ に対して $g_t(x) - g_t(x')$ が識別できることが分かります.実際に,説明変数が時間を通じて変化するなら,多くの場合で $g_t(x) - g_t(x')$ が識別できることを示すことができます.モデル (2) で $\gamma_t$ が識別できなかったのと同様に,追加の仮定が無い場合は $g_t(x)$ 自体を識別することはできません.しかし,モデル (2) と同様に,$E[\alpha_i]=0$ という仮定を追加すれば $g_t(x)$ を識別することができます.
この識別方法を少し拡張することで,Ishihara (2020) は
$$
Y_{it} = g_t(X_{it}, \alpha_i + u_{it}), \ \ \ i = 1, \ldots, n, \ \ t = 1,2 \tag{4}
$$
というより複雑なモデルの識別も示しています.モデル (4) では,$\alpha_i + u_{it}$ という観測できない変数が非加法的にモデルに入っています.これは $X_{it}$ の $Y_{it}$ への影響が観測できない変数に依存することを許しており,個人の異質性を考慮したより現実的なモデルとなっています.このとき,強外生の仮定を強めた
$$
u_{i1}|X_{i1}, X_{i2}, \alpha_i \ \overset{d}{=} \ u_{i2}|X_{i1}, X_{i2}, \alpha_i
$$
という仮定とサポート $\mathcal{X}$ の適当な条件を課すことで,Ishihara (2020) は $g_t$ が識別できることが示しました.ここで,$A \overset{d}{=} B$ は $A$ と $B$ の分布が等しいということを意味します.このモデルの識別・推定についてのより詳しい内容が知りたい人は Ishihara (2020) を読んでみて下さい.
最後に
本記事では,いくつかのパネルデータモデルの識別・推定方法を紹介しました.記事の中では,2期間のパネルデータモデルを考えていますが,一般の $T$ 期間のパネルデータモデルでも同様の結果を得ることができます.固定効果モデル推定方法についてより詳しく知りたい人は,川久保さんの記事を参考にしてください.今回は主に観測できない変数を加法的に組み入れたモデルについて紹介しましたが,計量経済学の最新の論文では,最後に紹介したような非加法的なモデルについても研究されています.次回は,非加法的なパネルデータモデルの識別について紹介したいと思います.
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.

参考文献
- Ishihara, T. (2020). Identification and estimation of time-varying nonseparable panel data models without stayers. Journal of Econometrics, 215(1), 184-208.