はじめに
東北大学/株式会社Nospareの石原です.本記事では,識別できないモデルの分析方法について紹介します.前回の記事で紹介したように,観測される変数の分布からパラメータが一意に復元できるとき,パラメータは識別されると言います.しかし,パラメータが識別できない場合でも,観測される変数の分布から真のパラメータが存在する範囲を知ることができる場合があります.このようなアイデアは部分識別(partial identification)と呼ばれています.本記事では,まず部分識別とはどのような概念かを紹介し,応用例として混合モデルの部分識別方法を紹介します.
部分識別とは
前回の記事と同様,観測できる変数 $W \in \mathbb{R}^d$ の分布はパラメータ $\theta$ によって特徴づけられるとし,パラメータ $\theta$ の下で生成される $W$ の分布を $P_{\theta}$ で表します.また,パラメータ $\theta$ はあるパラメータ空間 $\Theta$ に含まれているとし,$\Theta$ を定義域とするある写像 $\Psi$ が存在し,$\psi=\Psi(\theta)$ に興味があるという状況を考えます.ここで,興味の対象であるパラメータ $\psi=\Psi(\theta)$ のことをターゲットパラメータと呼ぶことにします.
異なる $\psi, \psi' \in \Psi(\Theta)$に対して,ある $\theta, \ \theta' \in \Theta$ が存在して
$$ \Psi(\theta) = \psi, \ \Psi(\theta') = \psi', \ P_{\theta} = P_{\theta'} $$
が成り立つとき,$\psi$ と $\psi'$ は観測的同値(observationally equivalent)であると言います.また,観測的同値な異なる $\psi$ と $\psi'$ が存在するとき,ターゲットパラメータは識別されないと言われます.このとき,もし $W$ の分布が $P = P_{\theta} = P_{\theta'}$ であったとすると,$\psi$ と $\psi'$ という2つのターゲットパラメータのどちらが正しいかデータから判別することはできません.したがって,ターゲットパラメータが識別できないということは,$W$ の分布が既知であったとしても,真のターゲットパラメータの値を完全に知ることはできないということを意味します.
ターゲットパラメータが識別できない時にはその真の値を完全に知ることはできませんが,ターゲットパラメータの取りうる値の範囲は知ることができます.実際,もし $W$ の分布が $P$ であったとすると,$P=P_{\theta}$ と $\psi = \Psi(\theta)$ という2つの条件を満たす $\theta \in \Theta$ が存在しないなら,このターゲットパラメータの値 $\psi$ は真の値ではないことが分かります.言い換えると,観測できる変数 $W$ の分布 $P$ が既知であるとすると,真のターゲットパラメータは
$$ \Psi_{IS} (P) := \{ \psi = \Psi(\theta): P_{\theta} = P, \theta \in \Theta \} $$
という集合に含まれなければならないことが分かります.このような集合は識別集合(identified set)と呼ばれます.つまり,識別集合とは,観測できる変数の分布 $P$ とモデルが整合的になるターゲットパラメータの集合となります.このように,観測される変数の分布からターゲットパラメータの値を求める代わりに,観測できる変数の分布と整合的なターゲットパラメータの集合を求めようとするアイデアを部分識別(partial identification)と呼びます.ターゲットパラメータが識別される場合は,識別集合は1つの点からなる集合となります.そのため,部分識別と区別して,通常の識別のことを点識別(point identification)と呼ぶこともあります.
モデルによっては識別集合を求めることが難しい場合もあります.そのような場合には,識別集合より大きな集合を求める場合があります.特に,ターゲットパラメータが1次元の場合,識別集合を含む区間をバウンド(bounds)と呼びます.また,導出されたバウンドがデータの分布とモデルの仮定から得られるバウンドの中で最も狭いとき,つまり,バウンドが識別集合と一致しているとき,バウンドはシャープ(sharp)であると言われます.
例:混合モデル
例として,次の混合モデルの部分識別を紹介したいと思います.観測できる変数 $W \in \mathbb{R}$ は確率 $p$ で確率変数 $U$ となり,確率 $1-p$ で確率変数 $V$ となるとします.つまり,$W, U, V$ の分布関数をそれぞれ $F_{W}, F_{U}, F_{V}$ とすると,
$$ F_{W}(w) = p F_{U}(w) + (1-p) F_{V}(w), \ \ w \in \mathbb{R} \tag{1}$$
が成り立ちます.ここで,$p \in (0,1)$ は既知であるとし,$V$ の平均に興味があるとします.つまり,この例では,$\theta = (F_{U},F_{V})$ であり,$\Psi(\theta) = \int v dF_{V}(v) = E[V]$ となります.
この例では,分析者は $V$ の分布に興味があるが,得られたデータ $W$ は汚染されており,既知の割合 $p$ で興味のない変数 $U$ がデータに混ざっているという状況を考えています.例えば,観測誤差のある場合などがこのような状況に対応します.興味の変数 $V$ のデータを集める過程で人為的なミスにより全く無関係な変数 $U$ がデータに混入し,そのような人為的なミスが起きる割合 $p$ を分析者が知っているという状況です.それ以外にも,Lee (2009)はサンプルセレクションのあるモデルがこのようなデータの構造を持っていることを示しています.
変数 $U, V$ はどちらも $[c_l, c_u]$ の間の値を取ると仮定します.このとき,パラメータ空間 $\Theta$ は
$$ \Theta = \{ (F_{U}, F_{V}) : \text{$F_U,F_V$ は $[c_l,c_u]$ 上の分布関数.} \} $$
と書くことができます.このパラメータ空間の下で,$E[V]$ のバウンドを求めてみましょう.まず,
$$ E[W] = p E[U] + (1-p) E[V] $$
が成り立つので,
$$ E[V] = \frac{1}{1-p} \cdot E[W] - \frac{p}{1-p} \cdot E[U] $$
となります.右辺の $E[U]$ は未知の値ですが,仮定から $[c_l,c_u]$ の間に入ることが分かります.よって,$E[V]$ が
$$ \left[ \frac{E[W] - p \cdot c_u}{1-p}, \frac{E[W] - p \cdot c_l}{1-p} \right] \tag{2}$$
に含まれることが分かります.このように,$W$ の分布から $E[V]$ の値を完全に求めることはできませんが,$E[V]$ の取りうる値の範囲を求めることができます.このようにして得られた区間を $E[V]$ のバウンドと呼びます.
上の方法で $E[V]$ のバウンドを得ることはできましたが,このバウンドはシャープでしょうか?実は上で求めた(2)のバウンドはシャープではありません.これを確認するために,(2)のバウンドの下限について考えてみましょう.上で議論したように,この下限は $E[U] = c_u$ のときの $E[V]$ の値に対応します.つまり,この値は,$U$ が確率1で $c_u$ という値を取っているという状況を想定しています.しかし,そのような状況は本当に $W$ の分布と整合的になるでしょうか?もし$U$ が確率1で $c_u$ という値を取っているとすると,(1)式の結果から $W$ の分布関数は $c_u$ でジャンプしなければならないことが分かります.つまり,もし観測される $W$ の分布関数 $F_{W}(w)$ が $w=c_u$ で連続であれば,$E[V]$ はこの値を取ることができないことが分かります.したがって,$W$ の分布関数が連続ならば,この下限は達成不可能なので,より狭いバウンドを得ることができます.
それでは,$E[V]$ のシャープバウンドを求めたいと思います.分布関数 $F_{U}$ は $[0,1]$ の間に入るので,(2)のバウンドの導出と同様の議論から,(1)式と $F_{V}(w) \in [0,1]$ を用いることで分布関数 $F_{V}(w)$ が
$$ [G(w), H(w)] := \left[ \max \left\{0, \frac{F_{W}(w) - p}{1-p} \right\}, \min \left\{ 1, \frac{F_{W}(w)}{1-p} \right\} \right] $$
に含まれることが分かります.したがって,$E[V] = \int v dF_{V}(v)$ であるので,
$$ E[V] \in \left[ \int w dH(w), \int w dG(w) \right] $$
となります.証明は省略しますが,Horowitz and Manski (1995) でこのバウンドがシャープであることが示されています.特に,$F_{W}(w)$ が連続の場合は,$w_{q}$ を $W$ の $q$ 分位点とすると,
$$ G(w) = P(W \leq w | W \geq w_p), \ \ H(w) = P(W \leq w | W \leq w_{1-p}) $$
となるので,
$$ \left[ E[W|W \leq w_{1-p}], E[W|W \geq w_p] \right] $$
が $E[V]$ のシャープバウンドになります.$p$ の値が0に近づくと,このバウンドの下限と上限は $E[W]$ に近づきます.これは,興味のないデータ $U$ の混入確率 $p$ が小さくなると興味のある $V$ の平均の範囲がより正確に分かるようになるということを意味しており,直観的な結果を与えています.
計量経済学における部分識別の重要性
前回の記事でも紹介したように,計量経済学では非常に複雑なモデルの分析を考えています.そのため,非常に強い仮定を置いてパラメータを識別しようとしてきました.しかし,そのような仮定には現実的でないものも多く,そのような強い仮定を置いた分析の信頼性には疑問があるかもしれません.部分識別は,そのような仮定を取り除いて分析することを可能にするので,より信頼できる分析結果を得ることができると考えられます.
また,部分識別を考えることにより,仮定と識別結果の関係が分かるようになりました.部分識別は,観測できる変数の分布とモデルが整合的になるターゲットパラメータの集合を考えているので,モデルの仮定を強くすると得られるバウンドも狭くなります.つまり,モデルに仮定を追加していき,そのバウンドの狭まり方を見ることで,追加した仮定の持つ識別力(identification power)を調べることができます.仮定を追加していくと,バウンドは狭くなりますが,より信頼性の低い仮定が加わることになるので分析結果の信頼性は下がります.このような仮定の識別力と信頼性のトレードオフを見ることで,有益で信頼のおける分析結果を得るには,どのような仮定を課せばよいかが議論できるようになりました.
最後に
通常の識別できるモデルでは,識別されたパラメータが推定対象となりますが,部分識別されるモデルでは,パラメータの存在する範囲しか知ることができないので,そのような集合を推定する方法を開発する必要があります.今回の記事では紹介することができませんでしたが,このような推定問題は集合推定(set estimation)と呼ばれており,計量経済学の分野で盛んに研究されています.
今回は混合分布の部分識別の結果しか紹介できませんでしたが,因果効果やゲーム理論に基づくモデルの分析などの様々な分野で部分識別が使われています.奥村先生の『部分識別入門』や部分識別の開発者であるManski教授の『データ分析と意思決定理論』という日本語のテキストもあるので,部分識別についてより詳しく知りたい人はこれらのテキストを読んでみて下さい.
株式会社Nospareでは統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospareまでお問い合わせください.
参考文献
- Horowitz, J. L., & Manski, C. F. (1995). Identification and robustness with contaminated and corrupted data. Econometrica, 281-302.
- Lee, D. S. (2009). Training, wages, and sample selection: Estimating sharp bounds on treatment effects. The Review of Economic Studies, 76(3), 1071-1102.