はじめに
はじめまして.東北大学/株式会社Nospareの石原です.本記事では,計量経済学で研究されている識別(identification)という概念を紹介したいと思います.簡単に紹介すると,識別という概念で議論されるのは,「もし観測される変数(データ)の分布を知ることができたら,興味のあるパラメータをデータの分布から一意に復元することができるのか?」という問題です.本記事では,識別という概念の定義を紹介し,識別という問題が計量経済学の文脈でなぜ重要であるのかについて書きたいと思います.
識別の定義
観測できる変数 $W \in \mathbb{R}^d$ の分布はパラメータ $\theta$ によって特徴づけられるとし,パラメータ $\theta$ の下で生成される $W$ の分布を $P_{\theta}$ で表すとします.さらに,パラメータ $\theta$ はあるパラメータ空間 $\Theta$ に含まれているとします.例えば,通常の線形回帰モデルを考えると,観測できる変数 $W$ は被説明変数 $Y$ と説明変数 $X$ からなるベクトルであり,$\theta$ は回帰係数や観測できない誤差項の分布などのモデルを特徴づけるすべての要素を含むと考えられます.つまり,誤差項の分布にパラメトリックなモデルを仮定しない場合,$\theta$ は無限次元のパラメータとなります.また,パラメータ空間 $\Theta$ を制限することは、回帰係数や誤差項の分布に対する様々な制約を課すことに対応します.したがって,パラメータ空間 $\Theta$ はモデルに対する様々な制約を表現していると解釈することができます.線形回帰モデルの例については,後で詳しく紹介します.
多くの場合,研究者はパラメータ $\theta$ のすべてに興味があるわけでなく,その一部にのみ興味があります.そこで,$\Theta$ を定義域とするある写像 $\Psi$ が存在し,$\psi=\Psi(\theta)$ に興味があるという状況を考えます.線形回帰モデルの例では,誤差項の分布に興味はなく,回帰係数もしくはその一部にしか興味がないという状況が多いと思います.そのような場合,$\Psi$ は $\theta$ から回帰係数もしくはその一部を取り出すような写像と考えることができます.ここでは,興味の対象であるパラメータ $\psi=\Psi(\theta)$ のことをターゲットパラメータと呼ぶことにします.
識別を定義する前に,まず観測的同値という概念を定義します.各 $\psi \in \Psi(\Theta)$ に対して,
$$ \Gamma (\psi,\Theta) := \{ P_{\theta} : \theta \in \Theta, \ \Psi(\theta) = \psi \} $$
という分布の集合を定義します.$\Gamma (\psi,\Theta)$ はターゲットパラメータの値が $\psi$ であることと整合的な $W$ の分布の集合と解釈することができます.このとき,ある $\psi, \ \psi' \in \Psi(\Theta)$ に対して,
$$ \Gamma (\psi,\Theta) \cap \Gamma (\psi',\Theta) \neq \varnothing $$
となるとき,$\psi$ と $\psi'$ は観測的同値(observationally equivalent)であると言います.$\psi$ と $\psi'$ が観測的同値であるとすると,ある $\theta, \ \theta' \in \Theta$ が存在して
$$ \Psi(\theta) = \psi, \ \Psi(\theta') = \psi', \ P_{\theta} = P_{\theta'} $$
が成り立ちます.つまり,ターゲットパラメータの値は違うにも関わらず,観測される変数の分布は同じになってしまうパラメータのペア $\theta$ と $\theta'$ が存在するということです.観測される変数の分布以外の情報をデータから知ることはできないので,これは $\psi$ と $\psi'$ という2つのターゲットパラメータのどちらが正しいかデータから判別できないことを意味します.
次に,観測的同値という概念を用いて,識別という概念を定義します.任意のターゲットパラメータ $\psi, \ \psi' \in \Psi(\Theta)$ に対して,
$$ \psi \neq \psi' \ \ \Rightarrow \ \ \Gamma (\psi,\Theta) \cap \Gamma (\psi',\Theta) = \varnothing $$
が成り立つなら,ターゲットパラメータは識別される(identified)と言います.つまり,任意の異なる $\psi$ と $\psi'$ が観測的同値でないなら,ターゲットパラメータは識別されます.$\Gamma (\psi,\Theta)$ はターゲットパラメータ $\psi$ と整合的な $W$ の分布の集合なので,ターゲットパラメータが識別されるということは、$\psi$ と $\psi'$ のどちらとも整合的な $W$ の分布は存在しないということを意味します.したがって,ターゲットパラメータが識別されているなら,与えられた $W$ の分布から,それと整合的なターゲットパラメータの値が一意に定まるということになります.
識別の議論では,観測できる変数 $W$ の分布が既知であるという状況を考えています.これは,i.i.d. サンプル $\{ W_i \}_{i=1}^n$ があれば,経験分布を用いて $W$ の分布を一致推定することができるからです.このように一致推定することができる情報を既知とすることで,難しい推定上の問題を無視して議論を進めることができるようになります.また,ターゲットパラメータが識別できないということは,$W$ の分布が既知であるという理想的な状況でもターゲットパラメータを一意に復元できないということを意味します.したがって,ターゲットパラメータが識別できない場合,どのような推定量を考えてもターゲットパラメータを一致推定することができません.そのため,複雑な問題を考える場合,推定問題を考える前にまず識別できるかどうかを考えることが重要になります.
線形回帰モデル
上の議論は少し抽象的で分かりにくいので,例として,線形回帰モデルの場合の識別の議論を紹介します.次のような回帰モデルを考えます:
$$ Y = X^T \beta + U, \ \ E[XU]=0 $$
ここで,定数 $\beta \in \mathbb{R}^k$は回帰係数,$Y \in \mathbb{R}$ は被説明変数,$X \in \mathbb{R}^k$ は説明変数,$U \in \mathbb{R}$ は観測できない誤差項です.この場合,観測できる変数は $W = (Y,X)$ となり,$W$ の分布を特徴づけるパラメータは回帰係数 $\beta$ と $(X,U)$ の同時分布 $F_{XU}$ と考えられます.つまり,パラメータは $\theta = (\beta, F_{XU})$ となります.実際に,$\theta$ の値が決まれば,$Y = X^T \beta + U$ という構造を通して $W$ の分布が決まります.その分布を $P_{\theta}$ と表すことにします.
線形回帰モデルでは,$rank(E[XX^T]) = k$ という条件が識別条件として知られています.このとき,$E_{F}$ が分布関数 $F$ の下での期待値を表すとすると,$(X,U)$ の同時分布 $F_{XU}$ は
$$ \mathcal{F} = \{ F : \text{$F$ は $E_F[XU]=0$ と $rank(E_F[XX^T]) = k$ を満たす $(X,U)$ の分布.} \} $$
という集合に含まれると考えることができます.したがって,この仮定の下では,$\theta$ のパラメータ空間は $\Theta = \mathbb{R}^k \times \mathcal{F}$ であると考えることができます.このとき,$(X,U)$ の同時分布に $E[U|X]=0$ などのより強い条件を課すことは,集合 $\mathcal{F}$ の対応する部分を変更してパラメータ空間を小さくすることに対応します.
実際に,このパラメータ空間の下で,ターゲットパラメータ $\Psi (\theta)=\beta$ が識別できることを示したいと思います.$E_{\theta}$ を分布 $P_{\theta}$ の下での期待値とすると,任意の $\theta = (\beta, F_{XU}) \in \Theta$ に対して
$$ E_{\theta}[XX^T]^{-1} E_{\theta}[XY] = \beta $$
が成り立ちます.さらに,もし $\beta$ と $\beta'$ が観測的同値であるなら,ある $\theta = (\beta, F_{XU}) \in \Theta$ と $\theta' = (\beta', F_{XU}') \in \Theta$ が存在して $P_{\theta} = P_{\theta'}$ となります.上の式の左辺は $P_{\theta}$ から計算できる値なので,もし $P_{\theta} = P_{\theta'}$ が成り立つなら,$\beta = \beta'$ でなければならないということが分かります.よって,
$$ \text{$\beta$ と $\beta'$ が観測的同値である} \ \ \Rightarrow \ \ \beta = \beta' $$
という関係が成り立ちます.これは識別の定義の対偶となっているので,ターゲットパラメータ $\beta$ が識別されることが分かります.
識別の定義そのものは少し分かりにくいですが,この例のように,$W$ の分布からターゲットパラメータへの写像が存在することを示すことで,ターゲットパラメータが識別できることを証明することができます.実際に,多くの研究では,このような写像を見つけることで識別を証明しています.また,このような写像を見つけることができれば,その標本対応を考えることでターゲットパラメータの推定量を構成することもできます.
計量経済学における識別の重要性
識別という概念は計量経済学に特有のものではなく,統計学で昔から議論されている概念です.しかし,近年,特に計量経済学で盛んに研究されるようになりました.計量経済学で識別の問題が重要になっている大きな理由として,計量経済学で扱うモデルが非常に複雑になっていることが挙げられると思います.例えば,計算機が発達し利用可能なデータが増えたことにより,分布や関数形にパラメトリックな仮定を課さずに経済モデルを推定しようとする研究が多くなってきました.また,より複雑な経済モデル(ゲーム理論に基づくモデルや動学モデル)の分析も増えています.上でも書いたように,識別できていないパラメータは一致推定することができないので,識別問題に取り組むことがこのような複雑なモデルの分析の第一歩となります.そのため,計量経済学の分野では,複雑な識別問題の研究が発展してきたのだと思います.
識別の議論は推定の第一歩としても重要ですが,私はモデルの仮定をより深く理解するためにも役に立っていると思います.いくつかの識別の研究は,興味のあるターゲットパラメータの識別にはどのような仮定が必要か,という問題を考えています.そのような問題を考えることで,ターゲットパラメータを知るために本当に必要な仮定は何か,または,ある仮定を緩めるためにはどのような仮定を追加する必要があるか,などを議論することができます.例えば,線形な操作変数モデルが識別されるためには内生変数と操作変数が相関を持てば十分であるということが知られていますが,様々な識別の研究から,より複雑な操作変数モデルを識別するためには操作変数により強い条件が必要であることが分かってきました.このような様々な識別の研究によって,分析にどのようなデータが必要か,利用可能なデータが必要な仮定を満たしているか,という問題に対してもより詳細な議論ができるようになったのではないかと思います.
この他にも,識別の議論を通して,今までの統計学・計量経済学では注目されていなかった新しいターゲットパラメータを提案したり,従来の仮定が成り立たないときに有名な推定量がどのようなパラメータを推定対象にしているのかを調べたりする研究も行われています.当然,最終的には推定・検定などの問題を考えることが重要であると思いますが,個人的には,一度そういう難しい問題を無視することで詳しく知ることができるものもあるのではないかと思います.
最後に
本記事で紹介した識別の定義は Matzkin (2007) の識別の定義を参考にしています.この識別の定義は i.i.d. データの分析には有用ですが,時系列データやネットワーク構造のあるデータの分析には有用でないかもしれません.i.i.d. データの場合,サンプルサイズが大きくなれば観測される変数の分布を完全に知ることができると考えられますが,i.i.d. データでない場合,サンプルサイズが大きくなっても観測される変数の分布を完全に知ることができるとは限りません.そのため,i.i.d. ではないデータを扱う場合には,別の識別の定義を考える必要があります.この点については,Lewbel (2019) により詳しく書かれています.
今回は紹介することができませんでしたが,計量経済学には部分識別(partial identification)という概念も存在します.これは,データの分布からターゲットパラメータを一意に復元することができない場合に,ターゲットパラメータを含む区間(または集合)を求めようとするアイデアです.部分識別と区別して,今回紹介した識別は点識別(point identification)と呼ばれることもあります.部分識別については,次回紹介したいと思います.
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.
参考文献
- Lewbel, A. (2019). The identification zoo: Meanings of identification in econometrics. Journal of Economic Literature, 57(4), 835-903.
- Matzkin, R. L. (2007). Nonparametric identification. Handbook of econometrics, 6, 5307-5368.