近似マッチング
同じ値を持つユニットが見つからない場合に、近似マッチングという手法を用いる
最近傍共変量マッチング
完全マッチングが破綻するケースの一つは、共変量の数${K}$が大きくなった場合。
層別化以外のアプローチをする場合、ユニット間の距離の概念に直面する
距離が最も近いユニット同士をマッチングすることを、最近傍共変量マッチングという。
ユニット間の距離を定義するために、最も単純な距離の測り方は、ユークリッド距離
\begin{align}
||X_{i} - X_{j}|| &= \sqrt{ (X_{i} - X_{j})^` (X_{i} - X_{j})}\\
&= \sqrt{ \sum_{n=1}^{k} (X_{ni} - X_{nj})^2 }
\end{align}
この距離の測り方だと、変数のスケールに依存してしまう。
そのため、一般的には正規化ユークリッド距離のように何らかの形で修正した尺度を用いる。
正規化ユークリッド距離は、各変数の距離がその変数の分散でスケーリングされている。
\begin{align}
||X_{i} - X_{j}|| &= \sqrt{ (X_{i} - X_{j})^` \hat{V^-1} (X_{i} - X_{j})}\\
&= \sqrt{ \sum_{n=1}^{k} \frac{(X_{ni} - X_{nj})}{\hat{\sigma^2_n}}}
\end{align}
マハラノビス距離
マハラノビス距離も正規化ユークリッド距離と同様にスケールに対して変わらない距離の尺度
\begin{align}
||X_{i} - X_{j}|| &= \sqrt{ (X_{i} - X_{j})^` \hat{\sum_{X}{-1}} (X_{i} - X_{j})}\\
\end{align}
${\hat{\sum_{X}}}$は$X$の標本分散共分散行列
標本サイズが大きくなるとマッチングおける不一致はゼロに収束する
共変量が多いほどマッチングにおける不一致がゼロに収束するまでの時間が長くなる。
バイアス補正
マッチングにおける不一致に対処する方法として、大規模なデータセットを準備する以外何があるのか。
有限標本のケースにおけるマッチング推定量を用いたバイアス補正の手法を提案した研究をみてみる。
マッチングが不一致な場合はバイアスが生じる。
標本から得られるATT推定値から真のATTを引くことでバイアスを導き出す。
まずATTの推定量
\hat{\sigma}_{ATT} = \frac{1}{N_{T}} \sum_{D_{i} = 1}(Y_{i} - Y_{j(i)})
次にアウトカムの条件付き期待値
\begin{align}
\mu^0(x) = E[Y | X=X,D=0] = E[Y^0 | X=x]\\
\mu^1(x) = E[Y | X=X,D=1] = E[Y^1 | X=x]
\end{align}
観測値をアウトカムの条件付き期待値と誤差項とすると以下のように書ける
Y_{i} = \mu^{D_i}(X_i) + \varepsilon_i
${Y_{i}}$ : 観測値
${\mu^{D_i}(X_i)}$ : 条件付き期待値
${\varepsilon_i}$ : 誤差項
ATT推定量を上記の式を用いて書くと、
\begin{align}
\hat{\sigma}_{ATT} &= \frac{1}{N_T} \sum_{D_i=1} (\mu^1(X_i) + \varepsilon_i)-(\mu^0(X_{j(i)}) + \varepsilon_{j(i)}\\
&=\frac{1}{N_T} \sum_{D_i=1} (\mu^1(X_i) - \mu^0(X_{j(i)}) + \frac{1}{N_T} \sum_{D_i=1} ( \varepsilon_{i} - \varepsilon_{j(i)})
\end{align}
ここでやっと、推定量とATTの真の値の比較をしてみる。
\begin{align}
\hat{\sigma}_{ATT} - \sigma_{ATT} = \frac{1}{N_T} \sum_{D_i=1} (\mu^1(X_i) - \mu^0(X_{j(i)}) - \sigma_{ATT}) + \frac{1}{N_T} \sum_{D_i=1} ( \varepsilon_{i} - \varepsilon_{j(i)})
\end{align}
式を変化すると
\begin{align}
\hat{\sigma}_{ATT} - \sigma_{ATT} &= \frac{1}{N_T} \sum_{D_i=1} (\mu^1(X_i) - \mu^0(X_{j(i)}) - \sigma_{ATT})\\
&+ \frac{1}{N_T} \sum_{D_i=1} ( \varepsilon_{i} - \varepsilon_{j(i)})\\
&+ \frac{1}{N_T} \sum_{D_i=1}(\mu^0(X_i) - \mu^0 (X_{j(i)}))
\end{align}
マッチングにおける不一致の程度によっては、マッチング推定量のバイアスは深刻になる。
バイアスはマッチングにおける不一致が大きい場合に発生する。
この不一致を最小にするには、マッチングするユニット数を小さくすること。
バイアスが小さい大標本においては、マッチング推定量は正規分布に従う。
傾向スコア法
傾向スコアマッチングは、必要な共変量を使って処置の条件付き確率の最尤モデル(ロジットモデル)を推定し、その推定から得られた当てはめ値を使って比較を行う。
AとBが同じ傾向スコア0.6を持っていて、処置群とコントロール群に分かれているとき、条件付き独立性の仮定が成立しているなら、両者のアウトカムの差は処置に起因するものと考えられる。
事例 : NSWの職業訓練プログラム
NSWは職業スキルを持たない不利な立場の労働者に、保護された環境での職業体験とカウンセリングを提供。
このプログラムには、治療中の依存症患者や出所した犯罪者、高校を中退した男女が参加。
処置群:NSWプログラムのすべてを受講する権利が与えられる
コントロール群:基本的に自活
NSWはランダム化された職業訓練プログラムであったため、独立性の仮定は満たされています。
なので、平均処置効果の計算は簡単であり、単純さを推定量として用いることが出来る。
E[Y^1 - Y^0]
差を計算すると、コントロール群と比べて約$900から$1800高くなっていた。
この研究ではコントロール群を他の非実験データに変えて計算したりした。
CPS : アメリカにおける月次の労働力調査
PSID : アメリカにおける所得や家族構成を調査したパネルデータ
正しい平均処置効果が分かっているため、ほかの計量経済モデルがどの程度うまく機能するか検証可能
NSWプログラムが約$900所得を増加させるのであれば、ほかの手法による推定量もプラスになるはず。
CPSとPSIDと比較したが、結果はひどいものであった。
推定値の大きさが大幅に異なっていただけではなく、ほとんどの場合、符号が逆になっていた。
結果が異なる理由は選択バイアスが原因
E[Y^0 | D = 1] \neq E[Y^0 | D = 0]
NSW受講者の実習得は、非実験的なコントロール群の所得よりもずっと低かった可能性が高いため。
共変量と処置の割り当ての独立性が満たされない場合、マッチングしてもバランスをとれない。
傾向スコアの値が処置群の範囲外だった観測地を削除することで、少しは改善する。
この方法は「トリミング」と呼ばれる。
傾向スコアによる重みづけ
個々の傾向スコアをそれぞれのアウトカムの重みとして用いることが可能。
重みづけられたアウトカムを集計することで、平均処置効果を識別できることが可能。
粗いマッチング
完全マッチングの一種で、データを十分に粗くすれば、完全マッチングが可能になるという発想に基づいている。
カテゴリ変数を、10~20歳で作れば、完全マッチングが可能になる。