More than 5 years have passed since last update.

『実証分析のための計量経済学』要点まとめ

Last updated at 2021-04-21Posted at 2021-04-04

読んだ本：実証分析のための計量経済学
本には、コレに加えて↓が書いてある
- 統計検定の用語や概念説明

目的

後から、自分が要点を参照するためのメモ

内容

第I部：計量経済学の基本事項と推定結果の実践的な理解

第1章：計量経済学とは何か

計量経済学は社会・経済の法則性・関係性を「見える化」するもの
- ノイズが多く含まれる現実のデータを、「法則性・関係性（原理・原則）」と「それ以外のノイズ（例外）」に分ける
「現実の原理・原則からのズレ」「中長期的な方向性」が見えてくる
- それによって、適切な意思決定ができるようになる
最近は便利な統計ソフトがあるが、知識が全く無いと誤った分析・解釈をする危険性があるので、最低限のノウハウは必要
本書の目的は、その「最低限のノウハウの習得」と「基礎から応用までを実践的に幅広く理解すること」

第2章：計量経済分析のエッセンス1

データの「見せかけの関係」に惑わされないよう、理論・概念・ロジックから仮説たててから、推定すること
因果関係を考えるときは、理論的背景を踏まえるべき（「逆の因果性」の可能性もある）
データの種類
- 時系列・横断面・パネル
  - 時系列データ
    - 1つの対象の、色々な時点でのデータ
  - 横断面データ
    - 1時点での、色々な対象のデータ
  - パネルデータ
    - 色々な対象の、色々な時点でのデータ
- 集計・個票
  - 集計データ
    - 複数の対象のデータを集計したデータ（平均など）
    - 1対象の複数時点を集計すると「集計時系列データ」
    - 1時点の複数対象を集計すると「集計横断面データ」
  - ミクロデータ（個票データ）
    - 集計していない、観測対象一つ一つのデータ

第3章：計量経済分析のエッセンス2

(回帰分析について色々書いてあるが、既知だったので割愛)

第4章：計量経済学を用いた実証分析の具体例

実際に色々なデータで分析した例があり、結果の見方を解説している
Oaxaca分解は初めて知った

第II部：最小二乗法から最尤法・非線形モデルへの発展

第5章：最小二乗法の仕組みと適用条件

最小二乗法：誤差の二乗の和が最小になるように、回帰式の係数を決定する

最小二乗法は何が良いのか

最小二乗法は、一定の条件を満たすと、BLUE（Best Linear Unbiased Estimator；最良線形不偏推定量）が成り立つ（ガウスマルコフの定理）
BLUEの特性
- 線形性（linearity）
- 不偏性（unbiasedness）：推定量の期待値が真の値に等しいこと
- 効率性（efficiency）：推定値の分散が最小であること
- 一致性（consistency）：サンプルサイズが増加すると推定値の分散が小さくなり、ある値に収束すること
↑になるために、誤差項が満たすべき条件
- 均一分散：分散が均一であること
- 共分散ゼロ：誤差間で相関がないこと
- 説明変数と独立：誤差項と説明変数の間で相関がないこと

仮定が成立しないケースと、対処方法

均一分散が成立しないケース（不均一分散：heteroskedasticity）

効率性（efficiency）がなくなる
平均値データ
- 属性（男女、都道府県など）ごとの平均値のデータ。平均値をとった集団の母数によって分散が変わる
- 対処法
  - 不均一分散頑健推定量を算出する（詳細は省略されている）
  - 観測値ごとの分散の異なり方がわかってる場合、一般化最小二乗法、加重最小二乗法も使える・・・第6章
線形確率モデル
- 被説明変数がダミー変数（0or1しかとらない）もの
- 対処法
  - プロビットモデルやロジットモデルを使う・・・第6章、第7章、第8章

共分散ゼロが成立しないケース

効率性（efficiency）がなくなる
時系列データ（パネルデータ）
- 自己相関があると共分散がゼロでなくなる
- パネルデータは、横断面要素は共分散ゼロになりやすいが時系列要素は自己相関が生じやすい
対処法
- 時系列データで自己相関がある場合
  - 自己相関係数を推定し、推定量を織り込んだ形で最小二乗法を適用する。
  - コクラン・オーカット法など（本書では説明されない）
- パネルデータの場合
  - 分散や共分散の構造（分散・共分散構造）を織り込んで最小二乗法を適用する点では同じ
  - 変量効果モデルの推定：一般化最小二乗法を用いてパネルデータに含まれる分散・共分散構造を考慮する推定・・・第6章、第12章

説明変数と独立でないケース

一致性（consistency）がなくなる。推定量が収束しないため、効率性（efficiency）がないケースよりも、推定上の問題としては深刻
欠落変数バイアス
- 説明変数に含まれるべき変数の欠落によるバイアス
  - 説明変数に含まれるべき変数：他の説明変数と相関がある変数
- ↑により、誤差項が（「欠落した変数」を介して）含まれている説明変数と相関してしまう
- 対処法
  - 可能な限り欠落変数をなくし、説明変数に加えること
  - 企業、個人などの違いを表すときはダミー変数を作る
  - 表しづらい指標は、間接的に表せそうな指標を探す
同時決定バイアス・内生性バイアス
- 説明変数が被説明変数の決定要因であると同時に、被説明変数も説明変数の決定要因であるとき
- 誤差項が被説明変数に乗って説明変数を決定するため、誤差項と説明変数が相関する
- 対処方法
  - 推定式を再検討する（「逆の因果性」が生じていないかを疑う）
  - ２段階最小二乗法（2SLS）、操作変数法（IV）・・・第9章、第11章、第12章

第6章：加重最小二乗法と一般化最小二乗法

一般化最小二乗法（Generalized Least Square; GLS）
- 被説明変数と説明変数を何らかの形に変換して、最小二乗法で推定する方法
加重最小二乗法（Weighted Least Square; WLS）
- 一般化最小二乗法の一種
- 不均一分散のデータに重みをかけて、均一分散にして最小二乗法を適用する
- 例
  - 平均値データの場合：各データ集計数が$N_i$だと分散が$\sigma_i / N_i$になる。そのため、すべての項に$\sqrt{N_i}$をかけて全データの分散を$\sigma_i$に揃える。
  - 合計値データの場合：各データ集計数が$N_i$だと分散が$\sigma_i N_i^2$になる。そのため、すべての項に$1/N_i$をかけて全データの分散を$\sigma_i$に揃える。
  - 一般化：データ毎の分散が$\sigma_i h_i$のとき、ウェイトを$1 / h_i$として加重最小二乗法を適用する。（すべての項に$1 / \sqrt{h_i}$をかける）
変量効果モデル
- パネルデータで、対象によって誤差が偏るときに使える
- 対象ごとの固有効果によって生じる誤差間の相関構造をあらかじめ考慮し、被説名変数と説名変数に複雑な変換を行い、最小二乗法を適用する
- 変換の内容は割愛されてる

第7章：プロビットモデルと最尤法

線形確率モデル：被説名変が0 or 1になるものを最小二乗法で推定したモデル
線形確率モデルの問題点
- 誤差項の分散が不均一になる
  - コレは、加重or一般化最小二乗法を適用すると解決できる
- 予測値を確率として扱うが、マイナスになったり、1より大きくなってしまうことがある
  - コレを、プロビットモデルやロジットモデルで解決する
  - どうやって0~1の間に入れるか、の細かい話はココで似たようなこと書いてる
プロビットモデル
- 回帰直線の式に、正規分布関数を適用する
ロジットモデル
- 回帰直線の式に、ロジスティック分布関数を適用する
最尤法
- ココに似たようなこと書いてるので割愛
限界効果
- 説明変数が変化したときの、被説明変数への影響の大きさ
- プロビットモデル、ロジットモデルでは単純に式の係数=限界効果とはならない（本書で導出は扱ってない）

第8章：順序ロジットモデルと多項ロジットモデル

順序ロジットモデル
- 被説明変数の選択肢が3つ以上あり、それらに順序がある場合
- 選択肢（例えば1, 2, 3）の境に潜在変数に対する閾値を設定し、潜在変数の値がどの閾値に対して大きい・小さいかで観測変数(1 , 2, 3)が決まる
  - 潜在変数：回帰直線の式で求められる値
  - 観測変数：選択肢に対応する値。潜在変数の値の、閾値に対しての大小で決まる
多項ロジットモデル
- 被説明変数の選択肢が3つ以上あり、それらに順序がない場合
  - 選択肢（例えばA, B, C）ごとに潜在変数を算出する回帰式を作り、「どの選択肢の潜在変数が一番大きくなるか」で観測変数(A , B, C)が決まる

第9章：トービットモデルとヘーキットモデル

トービットモデル

被説明変数が、「潜在変数が一定以上になると、そのまま観測される」「潜在変数が一定以下のときは特定の値（0など）が観測される」というモデル

$Y_i$：被説明変数
$Y_i^*$：潜在変数
$X_i$：説明変数

とすると、以下のようになるもの

Y_i = \left\{
\begin{array}{ll}
Y_i^* & (Y_i^* \gt 0) \\
0 & (Y_i^* \leq 0)
\end{array}
\right. \\
Y_i^* = a + b X_i + u_i

ヘーキットモデル

被説明変数が、「ある条件を満たすと、潜在変数そのまま観測される」「ある条件を満たさないと、観測されない」というモデル

$Y_i$：被説明変数
$Y_i^*$：潜在変数
$M_i$：条件を満たす、満たさないを表すダミー変数
$X_i, Z_i$：説明変数

とすると、以下のようになるもの

Y_i = \left\{
\begin{array}{ll}
Y_i^* & (M_i = 1) \\
. (unobservable) & (M_i = 0)
\end{array}
\right. \\
Y_i^* = a + b X_i + u_i \\

M_i = \left\{
\begin{array}{ll}
1 & (M_i^* \gt m) \\
0 & (M_i^* \leq m)
\end{array}
\right. \\
M_i^* = \alpha + \beta Z_i + v_i \\

推定方法

普通に最小二乗法を適用した際の問題点
- 回帰式に逆ミルズ比と呼ばれるものが入る
- 逆ミルズ比
  - トービットモデルの場合：被説明変数が、潜在変数ではなく0に変換される度合い
  - ヘーキットモデルの場合：被説明変数の観測されにくさ
- 逆ミルズ比を考慮しないで回帰すると、誤差項に逆ミルズ比が含まれる
- 逆ミルズ比と説明変数に相関がある場合、誤差項と説明変数に相関が発生し、一致性がなくなりBLUEでなくなる
対処法
- ２段階推定を行う
  - １段階目：プロビットモデルで最尤推定を行い、サンプルごとに逆ミルズ比を算出する
  - ２段階目：１段階目で得られた逆ミルズ比を説明変数に加えながら、最小二乗法で推定を行う
- 「0に変換されているかどうか（トービットモデル）」「観測されているかどうか（ヘーキットモデル）」という事実を情報として活用できる

第10章：非線形モデルの実証分析の具体例

実際に色々なデータでプロビットモデル・トービットモデル・ヘーキットモデルを使って分析した例があり、結果の見方を解説している

第III部：因果関係の特定とミクロ計量経済分析の応用

第11章：操作変数を用いた因果関係の特定

同時決定バイアス（simultaneous bias）や内生性バイアス（en-dogeneity bias）への対処法として、操作変数を用いた２段階最小二乗法（Two-Step Least Square；2SLS）や操作変数法（Instrument Variable；IV）がある
同時決定・内生性バイアス
- 調べたい因果関係に「逆の因果性」が存在するとき、発生するバイアス
- 逆の因果性があると以下のような式になり、被説明変数$Y_i$を通して誤差項$u_i$と$X_i$に相関が発生し、一致性がなくなりBLUEでなくなる

Y_i = a + b X_i + u_i \\
X_i = \alpha + \beta Y_i + v_i \\

対処法：操作変数を用いた２段階最小二乗法
- 追加で操作変数$Z_i$というものを利用する
- $X_i$を被説明変数、操作変数$Z_i$を説明変数として最小二乗法で$X_i$の予測値$\hat{X_i}$を算出する。
- $Y_i$を被説明変数、算出した予測値$\hat{X_i}$を説明変数として、推定式を推定する
- 操作変数$Z_i$が↓の条件を満たせば、誤差項$u_i$が$X_i$へ影響するルートを断ち切ることができる

\begin{align}
X_i &= \acute{\alpha} + \acute{\beta} Z_i + e_i \rightarrow \hat{X_i} = \acute{\alpha} + \acute{\beta} Z_i \\
Y_i &= a + b \hat{X_i} + u_i \\
\end{align}

適切な操作変数の条件
- 説明変数$X_i$に影響を与えること
  - コレを満たさないと、$X_i$の予測値がうまく算出できない
- 被説明変数$Y_i$からの影響は直接受けないこと
  - コレを満たさないと、$Y_i \rightarrow Z_i$と経由して誤差項$u_i$と$X_i$に相関が発生してしまう

第12章：パネルデータ分析と固定効果モデル

パネルデータは、以下のような推定式で表すのが一般的

$Y_{it}$：被説明変数
$X_{it}$：説明変数。ある対象$i$のある時点$t$での値
$F_i$：固有効果。ある対象$i$の値。時間で変化しない

Y_{it} = b X_{it} + F_i + v_{it}

変量効果モデル：↑の$X_{it}$と$F_i$が独立であると仮定したモデル
固定効果モデル：↑の$X_{it}$と$F_i$が独立でないと仮定したモデル

変量効果モデル

固有効果$F_i$を誤差項に含める
第6章を参照

Y_{it} = b X_{it} + (F_i + v_{it}) = b X_{it} + u_{it}

固定効果モデル

説明変数$X_{it}$と固有効果$F_i$が独立でないと何がダメなのか？
- $F_i$を誤差項に含めると、説明変数$X_{it}$と誤差項に相関が生まれ、推定量の一致性がなくなる
対処法
- 「対象$i$ごとの、平均との差分」「対象$i$ごとの、前の時点の値との差分」で考える
- ↑を行うと誤差項の中の$F_i$が消え、説明変数$X_{it}$と誤差項に相関がなくなる

平均との差分

\begin{align}
Y_{it} &= b X_{it} + F_i + v_{it} \\
\bar{Y}_i &= b \bar{X}_i + F_i + \bar{v}_i \\
\rightarrow Y_{it} - \bar{Y}_i &= b (X_{it} - \bar{X}_i) + (F_i - F_i) + (v_{it} - \bar{v}_i) \\
\rightarrow \tilde{Y}_{it} &= b \tilde{X}_{it} + \tilde{v}_{it} \\
\end{align}

前の時点の値との差分

\begin{align}
Y_{it} &= b X_{it} + F_i + v_{it} \\
Y_{i, t-1} &= b X_{i, t-1} + F_i + v_{i, t-1} \\
\rightarrow Y_{it} - Y_{i, t-1} &= b (X_{it} - X_{i, t-1}) + (F_i - F_i) + (v_{it} - v_{i, t-1}) \\
\rightarrow \Delta Y_{it} &= b \Delta X_{it} + \Delta v_{it} \\
\end{align}

固定効果モデルの長短所

長所
- 一致性のある推定量が得られやすい
  - 同時決定・内生性バイアスに対処できることがある
  - 時間によって逆の因果性がある（$Y_it$が$X_{i, t+1}$に影響する）場合は、固定効果操作変数法というものを用いる
  - 欠落変数バイアスに対処できることが多い
    - 時間変化しない要因は、全て固有効果$F_i$として除去される
短所
- 時間変化しない固有効果$F_i$の影響を明らかにできない
- 非線形モデルに適用できない
  - 単純に引き算するだけだと、$F_i$の影響がキレイに消えない

「変量効果モデル」と「固定効果モデル」の選び方

「ハウスマン検定」（Hausman test）によって、説明変数$X_{it}$と固有効果$F_i$が独立かどうか検定する
- 詳しい原理は本書には書いてない（そのうち勉強したい）
- Wikipedia(英語)。日本語ページはない

第13章：効果・影響の測定

DD分析（Difference-in-differences analysis）とか傾向スコアの話
コッチの本で読んだので、割愛

第14章：サバイバル分析

あるイベントがどの程度の期間持続するかを、「生存時間」「生存率」「ハザード率」を用いて明らかにする
- 生存時間：あるイベントが生じてからの持続時間（時間、月、年など）
  - 例：恋人の交際期間、大学の講義の履修継続状況（提出物の提出やテストの出席）
- 生存率：イベントが生じた後に、どのくらいの割合で持続しているサンプルが存在するかを示す指標
  - 例：一定期間経過後のカップルの継続割合、大学の講義の履修継続割合
- ハザード率：ある時点で持続しているイベントのうち、どの程度が次の時点で終了しているか
  - 例：xヶ月経過時点で持続しているカップルが、x+1ヶ月時点で終了している割合
生存時間、生存率、ハザード率は同じデータから算出されるのでどれも利用できるが、以下のように行うのが一般的
- イベント持続の外観確認：生存率
- 回帰分析を用いた検証：ハザード率
モデル
- ハザード率の式
  - ハザード率：$H_i$
  - 基準ハザード関数：$h(t)$。時間によっての変化を表す
  - 説明変数：$X_i$。説明変数によって受ける影響を表す
- 推定するモデルの種類
  - 「分析ハザードモデル」「Cox比例ハザードモデル」

H_i = h(t) exp(b X_i)

分析ハザードモデル

基準ハザード関数$h(t)$を何らかの分布関数で捉え、時間によるハザード率の変化を特定する
分布関数の候補は、指数分布、ワイブル分布、対数正規分布、対数ロジスティック分布、ガンマ分布などさまざま
当てはまりが良くなる分布を分析者が指定する
例
- 指数分布：$h(t) = 1$
- ワイブル分布：$h(t) = \theta t^{\theta - 1}$
説明変数の影響を表すパラメータ$b$と同時に、基準ハザード率のパラメータも同時に推定する。->さまざまな形式のハザード率に当てはめることができる
パラメータ$b$の有異性や符号条件で、説明変数：$X_i$のハザード率$H_i$への影響を判断する

Cox比例ハザードモデル

基準ハザード関数$h(t)$は特定しない
説明変数に応じてサンプルの比率を取って、基準ハザード関数をキャンセルアウト（相殺する）
メリット：基準ハザード関数の形状を考える必要がない
↓例（$X_i$がダミー変数の1つのみで、0or1しか取らない場合）

\frac{H_{i|X_i=1}}{H_{i|X_i=0}} = \frac{h(t) exp(b \times 1)}{h(t) exp(b \times 0)} = exp(b)

推定結果の見方

ハザードモデルは非線形モデルのため、係数=限定効果としては解釈できない
ハザード比（オッズ比）に与える影響を示すことが多い
- 1で、ハザード率に影響なし
- 1未満であればハザード率が小さく、1より大きければハザード率が大きくなる
- 「統計的に有意」は「有意に1と異なる」ことを意味する

第15章：パネルデータを活用した実証分析の具体例

実際のデータに対して、固定効果モデル、固定効果操作変数法、DD分析、マッチングDD分析、サバイバル分析を行った結果と、その見方が書かれてる

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up