0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ガウス-マルコフの定理から『線形』を外せるって本当なの? A Modern Gauss-Markov Theorem論争まとめ

0
Last updated at Posted at 2026-05-16

はじめに

2021年くらいに「A Modern Gauss-Markov Theorem」というGauss-Markovの定理から「線形」という条件を外せるという論文が発表され、教科書を書き換える結果だと話題になりました。当時論文を読んで、へーって思ってそれっきりでしたが、今更ながらこの論文に対していろいろな論争があることを知りました。論争を追ってみたらこれがかなり面白かったので、「A Modern Gauss-Markov Theorem? Really?」というだいぶ直球なタイトルの論文を中心に、何が論点になっているのかをまとめます。

論文での証明についてなるべく行間を埋めるように紹介した結果、記事全体がちょっと長くなりました。論争の内容だけを追いたい場合は定理の証明は読み飛ばして問題ありません。

この記事で扱う文献について

本記事で主に扱うのはBruce E. Hansenの「A Modern Gauss-Markov Theorem」とPötscher & Preinerstorferの反論論文「A Modern Gauss-Markov Theorem? Really?」です。これらの論文には複数のバージョンが存在していますので、以下に本記事で扱っている文献の時系列を記載しておきます。

  1. Hansen (2021b). A Modern Gauss-Markov Theorem:
    Econometrica受理版を修正した改訂版
  2. Pötscher & Preinerstorfer (v1). A Modern Gauss-Markov Theorem? Really?:
    反論論文 version 1
  3. Hansen (2022a). A Modern Gauss-Markov Theorem:
    Econometrica出版(独立標本など追加)
  4. Pötscher & Preinerstorfer (v5). A Modern Gauss-Markov Theorem? Really?:
    反論論文 version 5(最終版)

本記事の内容は上記の文献に基づきますが、この後にもやり取りが続いていたり、別の著者の関連論文も存在しています。今回の論争に関わる主な文献を参考文献の節に記載しているので、興味があれば参考にしてみてください。

前提知識の復習

線形回帰モデル

まず最初にGauss-Markovの定理の前提となる線形回帰モデルを定式化しておきます。$Y$を$n×1$の確率変数のベクトル、$X$を$n×k$の非確率的なデザイン行列とします。$\text{rank}(X)=k$であり、$1\le k\lt n$を満たしているとします。ここで、線形回帰モデル

Y=X\beta+e \hspace{8pt}\cdots\hspace{8pt}(1)

について考えることにします。ここで、誤差ベクトル$e$の期待値$E[\cdot]$と分散共分散行列$V[\cdot]$に対して以下のような仮定が成立するとします。

E[e]=0\hspace{8pt}\cdots\hspace{8pt}(2)
V[e]=\sigma^2\Sigma\hspace{8pt}\cdots\hspace{8pt}(3)

ここで、$\sigma^2$は$0\lt\sigma^2\lt\infty$を満たす未知数、$\Sigma$は既知の$n×n$正定値対称行列を表します。この場合、誤差の分散は均一でなくても良く、互いに相関していても良いことになります。特別なケースとして、$n$次単位行列$I_n$を用いて、$\Sigma=I_n$の場合を考えると(3)式は

V[e]=\sigma^2I_n\hspace{8pt}\cdots\hspace{8pt}(4)

となります。(4)の場合、誤差に対して分散が均一であること、異なる観測の誤差間に相関がないことを表します。

一般化最小二乗法

回帰係数$\beta$の推定量について考えます。標準的な回帰係数$\beta$の推定量は以下の一般化最小二乗(GLS)推定量です。

\hat{\beta}_{GLS}=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}Y

記号「$'$」は転置を表しています。推定量$\hat{\beta}_{GLS}$の期待値は$\beta$であり、このような推定量のことを不偏推定量と呼びます。さらに、$A=(X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1}$と置くと$\hat{\beta}_{GLS}$は観測値のベクトル$Y$と行列$A$を掛け算した$AY$という形をしていることが分かります。このような推定量のことを「線形推定量」と呼びます。つまり、$\hat{\beta}_{GLS}$は「線形不偏推定量」です。$\hat{\beta}_{GLS}$の分散共分散行列は$\sigma^2(X'\Sigma^{-1}X)^{-1}$です。

最小二乗法

$\Sigma=I_n$の場合、つまり(4)が成立するケースでは、GLS推定量$\hat{\beta}_{GLS}$は

\hat{\beta}_{OLS}=(X'X)^{-1}X'Y

となります。この推定量$\hat{\beta}_{OLS}$を最小二乗(OLS)推定量と呼びます。$\hat{\beta}_{OLS}$も「線形不偏推定量」です。$\hat{\beta}_{OLS}$の分散共分散行列は$\sigma^2(X'X)^{-1}$です。

Gauss-Markovの定理

定理の前提として(1)(2)(4)を仮定します。このとき、「回帰係数$\beta$の線形不偏推定量の中で、最小二乗推定量$\hat{\beta}_{OLS}$の分散が最小になる」という定理がガウス-マルコフの定理です。$\hat{\beta}_{OLS}$は分散が最も小さいという意味で最良であることから、最良線形不偏推定量 (Best Linear Unbiased Estimator: BLUE)と呼ばれます。Gauss-Markovの定理は$\hat{\beta}_{OLS}$が「線形」不偏推定量の中で分散最小、といっているに過ぎません。したがって、$\hat{\beta}_{OLS}$よりも小さい分散を持つ「非線形」不偏推定量が存在する可能性は残っています。

Aitkenの定理

Gauss-Markovの定理よりは有名ではないと思いますが、Aitkenの定理と呼ばれるものがあります。Aitkenの定理では前提として(1)(2)(3)を仮定します。このとき、「回帰係数$\beta$の線形不偏推定量の中で、一般化最小二乗推定量$\hat{\beta}_{GLS}$の分散が最小になる」という定理がAitkenの定理です。誤差の分散共分散行列を一般の正定値対称行列$\Sigma$まで広げた場合、誤差の構造を活用した推定量$\hat{\beta}_{GLS}$がより良い線形推定量になるわけです。この仮定のもとでは$\hat{\beta}_{GLS}$がBLUEになります。Aitkenの定理においても「非線形」不偏推定量に関しては何も述べられていないのはGauss-Markovの定理と同様です。

Gauss-Markovの定理とAitkenの定理の定式化

ここまで線形モデルやGauss-Markovの定理、Aitkenの定理について復習してきました。上記に記載した定理の内容は教科書などでよく見るような表現であり、曖昧な部分が残っています。この先は各定理の細かい部分まで議論していく必要があるので、これらの定理をより明確に定式化していきたいと思います。

Aitkenの定理の定式化

より一般的な定理であるAitkenの定理について先に説明することにします。定理の前提として(1)(2)(3)を仮定します。この仮定をすべて満たす$Y$の分布の集合について考えていきます。なお、デザイン行列$X$は議論の前提として1つ固定されているものとします。$\beta$が$\mathbb{R}^k$を動き、$\sigma^2$は$0\lt\sigma^2\lt\infty$を取りうるとき、ある$n×n$正定値対称行列$\Sigma$が与えられたときの$Y$の分布の集合を$\boldsymbol{F}_2(\Sigma)$とします。さらに、$\Sigma$がすべての$n×n$正定値対称行列を取りうる場合の$Y$の集合$\boldsymbol{F}_2$を

\boldsymbol{F}_2 := \bigcup_{\Sigma}\boldsymbol{F}_2(\Sigma)

で定義します。

また、ある$F\in\boldsymbol{F}_2$が与えられたとき、その分布$F$のもとでの期待値と分散共分散行列をそれぞれ$E_F[\cdot]$, $V_F[\cdot]$とします。推定量がある分布族において不偏であるとは、その分布族に含まれるすべての分布においてその推定量が不偏であることとします。例えば、「推定量$\hat{\beta}$が$\boldsymbol{F}_2$において不偏である」とは「すべての$F\in\boldsymbol{F}_2$に対して$E_F[\hat{\beta}]=\beta$が成立する」を意味することとします。

定理1. Aitkenの定理:推定量$\hat{\beta}$が$\boldsymbol{F}_2$において不偏な"線形推定量"であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'\Sigma^{-1}X)^{-1}

がすべての$F\in\boldsymbol{F}_2$に対して成立する。ここで、行列$A, B$に対して$A-B$が半正定値行列のときに記号「$\succeq$」を用いて$A\succeq B$と書くことにする。

この定式化では推定量$\hat{\beta}$が$\boldsymbol{F}_2$に属するすべての$Y$の分布に対して不偏な線形推定量であることを明確にしています。つまり$\boldsymbol{F}_2$の特定の分布では不偏だが、ある別の分布では不偏でなくなるような推定量は$\hat{\beta}$として取ることはできません。また、推定量の分散の大小関係を行列の正定値性の順序関係として定式化しています。

$\sigma^2(X'\Sigma^{-1}X)^{-1}$はGLS推定量の分散共分散行列だったので、Aitkenの定理ではGLS推定量がBLUEであることが主張されています。

なお、Aitkenの定理としては、ある特定の正定値対称行列$\Sigma$に対して$\boldsymbol{F}_2(\Sigma)$における不偏性を要求する方が一般的です。ただし、推定量を「線形」に限定する場合は推定量が不偏になるための条件は分散共分散行列$\Sigma$に依存しません。1 そのため、$\boldsymbol{F}_2$における不偏性を要求することと、$\boldsymbol{F}_2(\Sigma)$における不偏性を要求することは等価になります。本記事では、この後の議論との接続を考えて、より広い$\boldsymbol{F}_2$における不偏性を要求する形でAitkenの定理を定式化しています。

Gauss-Markovの定理の定式化

Gauss-Markovの定理では(1)(2)(4)を仮定します。したがって、$\Sigma=I_n$のケースがGauss-Markovの定理にあたります。この仮定を満たすすべての$Y$の分布の集合を$\boldsymbol{F}_2^0$とすると、

\boldsymbol{F}_2^0=\boldsymbol{F}_2(I_n)

と書くことができます。

定理2. Gauss-Markovの定理:推定量$\hat{\beta}$が$\boldsymbol{F}_2^0$において不偏な"線形推定量"であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'X)^{-1}

がすべての$F\in\boldsymbol{F}_2^0$に対して成立する。

$\sigma^2(X'X)^{-1}$はOLS推定量の分散共分散行列だったので、Gauss-Markovの定理ではOLS推定量がBLUEであることが主張されています。

Gauss-Markovの定理から「線形」という仮定を除くことができるか?

定理2において推定量$\hat{\beta}$は線形推定量と仮定されていました。ここで、定理2から「線形」という仮定を除いた命題について考えてみます。

命題1. Gauss-Markovの定理 (線形なし):推定量$\hat{\beta}$が$\boldsymbol{F}_2^0$において不偏な"推定量"であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'X)^{-1}

がすべての$F\in\boldsymbol{F}_2^0$に対して成立する。

この命題1では推定量$\hat{\beta}$は不偏な推定量であり、必ずしも線形推定量である必要は無くなっています。つまり、OLS推定量が最良不偏推定量 (Best Unbiased Estimator: BUE)であることを主張しています。では、この命題1は正しいのでしょうか?

結論としてはこの定理は正しくありません。このGauss-Markovの定理 (定理2)から「線形」という仮定を除くことはできません。命題1の具体的な反例を構成してみましょう。線形モデル(1)において、以下のように$n=2, k=1, X=(1, 1)'$という状況を考えます。

\begin{pmatrix}
y_1\\
y_2
\end{pmatrix}=
\begin{pmatrix}
1\\
1
\end{pmatrix}\beta+
\begin{pmatrix}
e_1\\
e_2
\end{pmatrix}

$Y$の分布$F$は$\boldsymbol{F}_2^0$に属し、真の回帰係数は$\beta=0$、真の誤差分散は$\sigma^2=1$であるとしておきます。

この状況において、$\beta$のOLS推定量は$\hat{\beta}_{OLS}=(y_1+y_2)/2$であり標本平均と等しくなります。次に、OLS推定量とは別の推定量として、

\hat{\beta}_{\alpha}=\hat{\beta}_{OLS}+\frac{\sqrt{3}}{10}(y_1^2-y_2^2)

という非線形推定量を考えます。$\hat{\beta}_{OLS}$と$\hat{\beta}_{\alpha}$はともに$\boldsymbol{F}_2^0$において不偏な推定量なので、どちらも命題1の前提条件を満たす推定量です。命題1が正しいのであれば、どのような$Y$の分布を$\boldsymbol{F}_2^0$から選んだとしても$\hat{\beta}_{OLS}$の分散の方が小さくなるはずです。

ここで、$y_1$の真の分布を

y_1 = \left\{
\begin{array}{ll}
\frac{1}{\sqrt{3}} & (p=\frac{3}{4}) \\
-\sqrt{3} & (p=\frac{1}{4})
\end{array}
\right.

のように確率$3/4$で$1/\sqrt{3}$、確率$1/4$で$-\sqrt{3}$をとる分布とします。また、$y_2$の真の分布は標準正規分布$N(0, 1)$であり、$y_1$と$y_2$は独立であるとします。$y_1, y_2$ともに期待値$0$かつ分散$1$であり、互いに独立なので共分散は$0$です。したがって、$y_1$と$y_2$の同時分布(つまり$Y$の分布)は$\boldsymbol{F}_2^0$に属します。

この分布のもとで$\hat{\beta}_{OLS}$と$\hat{\beta}_{\alpha}$の分散を計算してみます。まず、$\hat{\beta}_{OLS}$の分散は$0.5$になります。$\hat{\beta}_{\alpha}$の分散は

\begin{align}
V[\hat{\beta}_{\alpha}]&=V[\hat{\beta}_{OLS}+\frac{\sqrt{3}}{10}(y_1^2-y_2^2)] \\
&=V[\hat{\beta}_{OLS}]+\frac{3}{100}V[y_1^2-y_2^2]+\frac{2\sqrt{3}}{10}Cov[\hat{\beta}_{OLS}, y_1^2-y_2^2]
\end{align}

となります。第一項は$0.5$、第二項は$0.1$です。第三項の共分散部分は$y_1$と$y_2$が独立なので、

\begin{align}
Cov[\hat{\beta}_{OLS}, y_1^2-y_2^2]&=Cov[(y_1+y_2)/2, y_1^2-y_2^2] \\
&=\frac{1}{2}Cov[y_1, y_1^2]-\frac{1}{2}Cov[y_2, y_2^2] \\
&=-\frac{1}{\sqrt{3}}
\end{align}

となります。したがって、第三項の値は$-0.2$であり、$\hat{\beta}_{\alpha}$の分散は$0.5+0.1-0.2=0.4$となります。

このような$Y$の分布のもとでは$\hat{\beta}_{\alpha}$の方が$\hat{\beta}_{OLS}$よりも分散が小さくなることが分かりました。命題1の主張は$Y$の分布が$\boldsymbol{F}_2^0$に属するどんな分布であったとしても、$\boldsymbol{F}_2^0$において不偏な推定量の中では$\hat{\beta}_{OLS}$の分散が最も小さくなる、というものでした。しかし、上記の例のように特定の分布のもとでは$\hat{\beta}_{OLS}$よりも分散が小さくなる非線形推定量が存在することが分かりました。したがって、命題1は偽であり、定理2から「線形」という仮定を除くことはできないことが分かります。2

この反例だけ見ると、じゃあ「A Modern Gauss-Markov Theorem」のGauss-Markovの定理から線形の条件を外せるという主張は間違いだったのか?、と思うかもしれませんが実はそのような話ではありません。次節からその内容について説明していきます。

A Modern Gauss-Markov Theorem

現代版Aitkenの定理

ここまでの議論から、定理2から「線形」という仮定を除くことはできないことが分かりました。そこで、「A Modern Gauss-Markov Theorem」ではAitkenの定理 (定理1)から「線形」という仮定を除くことを試みています。これは現代版Gauss-Markovの定理というよりも、現代版Aitkenの定理と呼ぶべきものです。

命題2. 現代版Aitkenの定理:推定量$\hat{\beta}$が$\boldsymbol{F}_2$において不偏な"推定量"であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'\Sigma^{-1}X)^{-1}

がすべての$F\in\boldsymbol{F}_2$に対して成立する。

この命題2では定理1から「線形」の仮定が除かれており、$\boldsymbol{F}_2$において不偏なあらゆる推定量の中で、GLS推定量の分散が最小であることが主張されています。この命題は真であり、実際に「A Modern Gauss-Markov Theorem」で証明されています。以下でこの命題の証明のスケッチを紹介します。厳密な証明は論文中に記載されているので、興味のある方は見てみてください。本記事においては命題2が真であることを受け入れてもらえれば、以下の証明については読み飛ばしても問題ありません。

Cramér–Raoの不等式

命題2の証明に必要になる前提知識として、Cramér–Raoの不等式を紹介しておきます。

Cramér–Raoの不等式:パラメータ$\theta$で添え字付けられた分布族$\{F_{\theta}\}_{\theta\in \Theta}$が特定の正則条件を満たしているとする。また、$\theta$の推定量$\hat{\theta}$が不偏であるとする。つまり、$E_{F_{\theta}}[\hat{\theta}]=\theta$がすべての$\theta\in \Theta$で成立しているとする。このとき、$\hat{\theta}$の分散共分散行列に対する不等式

V_{F_{\theta}}[\hat{\theta}] \succeq \mathcal{I}(\theta)^{-1}

がすべての$\theta\in \Theta$に対して成立する。ここで、$\mathcal{I}(\theta)$は$\theta$におけるFisher情報行列を表す。

これは有名な定理だと思いますが、不偏推定量の分散の下界を与えてくれる不等式です。この不等式を$\boldsymbol{F}_2$において不偏な推定量に対して適用できれば分散の下界を導けるのですが、$\boldsymbol{F}_2$はパラメータで添え字付けられた分布族という条件を満たさないため、そのままこの不等式を適用することはできません。そこで、以下の証明のスケッチでは巧妙にCramér–Raoの不等式を適用できる分布族を作成することでこの問題を回避しています。

命題2の証明のスケッチ

議論を簡単にするために、$\boldsymbol{F}_2$に属するすべての$Y$の同時分布$F$には確率密度関数$f(y)$が存在し、$f(y)$の台$\mathcal{Y}$は有界であるとします。論文中の厳密な証明ではこのような仮定を使わずに証明されています。

任意の$F\in\boldsymbol{F}_2$を一つ選びます。回帰係数$\beta$の真値を$\beta_F$、スケール$\sigma^2$の真値を$\sigma^2_F$とします。以下のような変数変換

\frac{Y-X\beta_F}{\sigma_F}

を行えば、一般性を失うことなく、変換後の世界では回帰係数の真値が$\beta_0=0$、スケールの真値が$\sigma^2_0=1$になっていると考えることができます (以降はこの正規化された世界で議論し、最後に変換を戻します)。

$f(y)$の台は有界なので$\beta$を十分に小さくとれば、すべての$y\in\mathcal{Y}$について$|y'\Sigma^{-1}X\beta|\lt1$を満たすことができます。そこで、そのような条件を満たす$\beta$の集合を$B$とし、$\beta\in B$をパラメータとする補助関数

f_{\beta}(y)=f(y)(1+y'\Sigma^{-1}X\beta)

を考えます。この補助関数については明らかに$f_{\beta}(y)\ge 0$が成立します。また、$f(y)$が確率密度であること、回帰係数の真値が$\beta_0=0$なので$Y$の期待値が$X\beta_0=0$であることから

\begin{align}
\int_{\mathcal{Y}} f_{\beta}(y)dy&=\int_{\mathcal{Y}} f(y)dy+\int_{\mathcal{Y}}f(y)y'dy\Sigma^{-1}X\beta \\
&=1+\beta_0'X'\Sigma^{-1}X\beta \\
&=1+0\cdot X'\Sigma^{-1}X\beta \\
&=1
\end{align}

が成立します。したがって、補助関数$f_{\beta}(y)$は確率密度関数であることが分かります。確率密度関数として$f_{\beta}(y)$を持つ確率分布を$F_{\beta}$とおけば、$\{F_{\beta}\}_{\beta\in B}$はパラメータ$\beta$で添え字付けられた確率分布の族になっています。特に、$\beta=0$のとき、$F_{\beta}=F$となります。

次に、確率分布$F_{\beta}$の期待値$E_{\beta}[\cdot]$を調べてみます。$Y$の期待値が$0$であること、分散が$\Sigma$であることから、

\begin{align}
E_{\beta}[Y]&=\int_{\mathcal{Y}} yf_{\beta}(y)dy \\
&=\int_{\mathcal{Y}} yf(y)dy+ \int_{\mathcal{Y}}yy'f(y)dy\Sigma^{-1}X\beta\\
&=E_F[Y]+E_F[YY']\Sigma^{-1}X\beta \\
&=0+\Sigma\Sigma^{-1}X\beta \\
&=X\beta
\end{align}

となります。したがって、$F_{\beta}$は線形回帰モデルの条件を満たしている分布であり、$\{F_{\beta}\}_{\beta\in B}\subset\boldsymbol{F}_2$が成立していることが分かります。

推定量$\hat{\beta}$は$\boldsymbol{F}_2$において不偏な推定量だったので、$\hat{\beta}$は$\boldsymbol{F}_2$の部分集合である$\{F_{\beta}\}_{\beta\in B}$においても不偏です。さらに、$\{F_{\beta}\}_{\beta\in B}$はパラメータ$\beta$で添え字付けられた確率分布の族になっているので、Cramér–Raoの不等式を適用できる形になっています。特に$\beta=0$のとき$F_{\beta}=F$なので、この場合における$\hat{\beta}$の分散の下界をCramér–Raoの不等式を使って調べてみることにします。まず、$\beta=0$におけるスコア$S$は

\begin{align}
S&=\frac{\partial}{\partial\beta}\log f_{\beta}(y)\Bigg|_{\beta=0} \\
&=\frac{\partial}{\partial\beta}\bigg\{\log f(y)+\log (1+y'\Sigma^{-1}X\beta)\bigg\}\Bigg|_{\beta=0} \\
&=X'\Sigma^{-1}y
\end{align}

となります。$\beta=0$における情報行列を計算すると、

\begin{align}
\mathcal{I}(0)&=E_F[SS'] \\
&=X'\Sigma^{-1}E_F[YY']\Sigma^{-1}X \\
&=X'\Sigma^{-1}X
\end{align}

となります。したがって、Cramér–Raoの不等式より、$\hat{\beta}$の分散共分散行列の分布$F$における下界

V_F[\hat{\beta}] \succeq \mathcal{I}(0)^{-1}=(X'\Sigma^{-1}X)^{-1}

が成立します。この下界は正規化を元に戻せば$\sigma^2(X'\Sigma^{-1}X)^{-1}$となり、命題2で示したい下界そのものになります。$F$は$\boldsymbol{F}_2$から任意に選べたので、すべての$F\in\boldsymbol{F}_2$について下界が成立します。これで命題2が正しいことが証明できました。■

現代版Gauss-Markovの定理

現代版Aitkenの定理が証明されたことで、その系として現代版Gauss-Markovの定理とでも呼ぶべき命題も論文中で示されています。

命題3. 現代版Gauss-Markovの定理:推定量$\hat{\beta}$が$\boldsymbol{F}_2$において不偏な推定量であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'X)^{-1}

がすべての$F\in\boldsymbol{F}_2^0$に対して成立する。

この命題3は真である一方で、命題1は偽であることを先ほど示しました。違いが非常に紛らわしいですが、命題1と命題3では推定量に対する不偏性の要求範囲が異なることがポイントです。不偏性の要求範囲が異なることで一体何が起きているのでしょうか?

A Modern Gauss-Markov Theorem? Really?

さて、命題2が真であることを証明し、Aitkenの定理から「線形」という仮定を除けることが分かりました。さらに、命題3のようにGauss-Markovの定理からも「線形」という仮定を除けました。めでたしめでたし。で終わればよかった(?)のですが、実際にはそんなに単純な話ではありませんでした。ここでは反論論文「A Modern Gauss-Markov Theorem? Really?」の内容について紹介します。一つ注意しておくことは「A Modern Gauss-Markov Theorem」での定理の証明に誤りがあったわけではないことです。

Koopmannの定理

「A Modern Gauss-Markov Theorem」では、$\boldsymbol{F}_2$において不偏な「線形推定量」の中ではGLS or OLS推定量が分散最小と主張する古典的な定理を、$\boldsymbol{F}_2$において不偏な「推定量」の中でGLS or OLS推定量が分散最小という現代版の定理に拡張しました。ここで、「線形」という仮定を除くことが実質的な意味を持つのは、$\boldsymbol{F}_2$において不偏な推定量の中に非線形推定量が含まれている場合のみであることに気がつきます。

そもそも、ある分布族において不偏な推定量にはどのような推定量を考えることができるのでしょうか?この疑問に回答する古典的な結果の一つにKoopmannの定理があります。

Koopmannの定理:ある正定値対称行列$\Sigma$に対して、推定量$\hat{\beta}$が$\boldsymbol{F}_2(\Sigma)$において不偏であるとする。このとき推定量$\hat{\beta}$は

\hat{\beta}=AY+(Y'H_1Y,\ldots,Y'H_kY)'

の形をとる。ここで$A$は$AX=I_k$を満たす$k×n$行列、各$H_i$は$\text{tr}(H_i\Sigma)=0$かつ$X'H_iX=0$を満たす$n×n$行列である。

この定理は、$\boldsymbol{F}_2(\Sigma)$における不偏性から、推定量が「線形部分+二次形式部分」に分解されることを主張しています。非線形な推定量であっても、高々二次の多項式にしかなり得ないということになります。私はこれまで推定量がどんな形をしているかあまり考えたことがなかったのですが、推定量の形はある程度制限されることが知られているようです。

ただし、正しいとは思われているっぽいですが、この定理に完全な証明が与えられているわけではないようです。この記事では議論を簡単にするため、この定理が正しいものとして進めることにします。

A Modern Gauss-Markov Theorem? Really?における主張

「A Modern Gauss-Markov Theorem? Really?」において主張されている内容は以下の通りです。

命題4:$\hat{\beta}$が$\boldsymbol{F}_2$において不偏な推定量であるとする。このとき、$\hat{\beta}$は線形推定量である。

つまり、この命題は$\boldsymbol{F}_2$において不偏な推定量にはそもそも非線形推定量が含まれておらず、線形推定量しか存在しないことを主張しています。この命題が正しいのあれば、現代版Aitken/Gauss-Markovの定理から「線形」という条件を外すことに成功した、と思いきや実は$\boldsymbol{F}_2$における不偏性を課している時点で「線形」という条件が暗に導入されてしまっているわけです。

この命題は「A Modern Gauss-Markov Theorem? Really?」で証明されており、真です。以下に命題4のKoopmannの定理を仮定した証明を紹介します。この命題についても真であることを受け入れてもらえれば証明は読み飛ばして構いません。また、本記事では簡略化のためにKoopmannの定理を仮定した証明を扱いますが、論文中にはKoopmannの定理を仮定せずゼロからの完全な証明がされているので、興味のある方はご覧ください。というかこの論文の本来の貢献はKoopmannの定理に依存しない完全な証明を与えたところにあります。

命題4のKoopmannの定理を仮定した証明

$\boldsymbol{F}_2$において不偏な任意の推定量$\hat{\beta}$を一つ選ぶ。この$\hat{\beta}$に対しては

任意のF\in\boldsymbol{F}_2(\Sigma)に対して\hspace{2pt}E_F[\hat{\beta}]=\beta\hspace{8pt}\cdots\hspace{8pt}(5)

が成立しています。$\Sigma$は任意の$n×n$正定値対称行列です。ここで、$\Sigma=I_n$と指定すると、$\boldsymbol{F}_2(I_n)\subset\boldsymbol{F}_2$なので、

任意のF\in\boldsymbol{F}_2(I_n)に対して\hspace{2pt}E_F[\hat{\beta}]=\beta\hspace{8pt}\cdots\hspace{8pt}(6)

も同時に成立しています。したがって、$\hat{\beta}$は$\boldsymbol{F}_2(I_n)$において不偏な推定量なので、Koopmannの定理を適用することで$\hat{\beta}$が

\hat{\beta}=A^0Y+(Y'H_1^0Y,\ldots,Y'H_k^0Y)'\hspace{8pt}\cdots\hspace{8pt}(7)

のように線形+二次形式の形をしていることが分かります。ここで、$A^0$は$A^0X=I_k$を満たす行列、各$H_i^0$は$\text{tr}(H_i^0)=0$かつ$X'H_i^0X=0$を満たす行列です。二次形式の性質より、$Y'H_i^0Y=Y'\{(H_i^0+H_i^0 {'} )/2\}Y$が成立します。$(H_i^0+H_i^0 {'} )/2$は常に対称行列なので、$H_i^0$が対称行列の場合はそのまま、対称行列でない場合は$(H_i^0+H_i^0 {'} )/2$に置き換えることで、一般性を失うことなく$H_i^0$を対称行列として扱うことができます。(7)を(5)に代入することで、

任意のF\in\boldsymbol{F}_2(\Sigma)に対して\hspace{2pt}E_F[A^0Y+(Y'H_1^0Y,\ldots,Y'H_k^0Y)']=\beta\hspace{8pt}\cdots\hspace{8pt}(8)

がすべての$n×n$正定値対称行列$\Sigma$に対して成立していることが分かります。

$\hat{\beta}$がどんな非線形推定量なのかは各$H_i^0$の形に依存しています。各$H_i^0$の形を知りたいのですが、今のままでは手掛かりが少ないので、(8)の期待値をもう少し詳しく見てみましょう。この期待値は線形部分の期待値と二次形式部分の期待値の和として分解することができます。まず、線形部分の期待値を計算すると、$A^0X=I_k$なので、

E_F[A^0Y]=A^0E_F[Y]=A^0X\beta=I_k\beta=\beta

となります。したがって、$\hat{\beta}$が不偏推定量であるためには、二次形式部分の期待値がゼロ

E_F[(Y'H_1^0Y,\ldots,Y'H_k^0Y)']=0

であることが要求されます。これは各$i$に対して$E_F[Y'H_i^0Y]=0$が成立することを意味します。この期待値を計算していくと

\begin{align}
E_F[Y'H_i^0Y]&=E_F[(X\beta+e)'H_i^0(X\beta+e)] \\
&=\beta'X'H_i^0X\beta+2\beta'X'H_i^0E_F[e]+E_F[e'H_i^0e] \\
&=E_F[e'H_i^0e]
\end{align}

となります。上記の計算には$X'H_i^0X=0$と$E_F[e]=0$を用いています。一般に確率ベクトル$a$に対して二次形式の期待値は$a$の期待値$\mu$と分散共分散行列$\Sigma$を用いて$E[a'Ha]=\text{tr}(H\Sigma)+\mu' H\mu$のように計算できます。この公式と$e$の期待値が$0$、分散共分散行列が$\sigma^2\Sigma$であることを用いて

\begin{align}
E_F[e'H_i^0e]=\sigma^2\text{tr}(H_i^0\Sigma)
\end{align}

が得られます。$E_F[Y'H_i^0Y]=0$と合わせると、

\begin{align}
\sigma^2\text{tr}(H_i^0\Sigma)=0
\end{align}

であり、$\sigma^2\gt0$なので両辺を$\sigma^2$で割ることで

\begin{align}
\text{tr}(H_i^0\Sigma)=0\hspace{8pt}\cdots\hspace{8pt}(9)
\end{align}

となります。これにより、各$i$に対して$\text{tr}(H_i^0\Sigma)=0$がすべての$n×n$正定値対称行列$\Sigma$において成立していることが分かりました。

さて、$\text{tr}(H_i^0\Sigma)=0$という条件が分かったので、ここからはこの情報を使って各$H_i^0$が具体的にどんな形をしているのかを調べていきます。いきなり全部を調べるのは大変なので、まずは対角成分に注目していきましょう。$\mathbb{R}^n$の第$j$標準基底ベクトル(第$j$成分だけが$1$で残りはすべて$0$のベクトル)を$e_j(n)$とします。このベクトルを使って$e_j(n)'H_i^0e_j(n)$の計算をすることで$H_i^0$の$(j, j)$成分を取り出すことができることに着目します。もし、$\Sigma$として$e_j(n)e_j(n)'$を使うことができれば、

\begin{align}
\text{tr}(H_i^0\Sigma)=\text{tr}(H_i^0e_j(n)e_j(n)')
\end{align}

のように代入することで、先ほど確認したトレースの条件(9)を使って$H_i^0$の対角成分の値を調べることができそうです。しかし、$e_j(n)e_j(n)'$は正定値行列ではないので、$\Sigma$としてそのまま$e_j(n)e_j(n)'$を使うことはできません。そこで、正定値対称行列の列$\Sigma_m^{(j)}$で$m\rightarrow\infty$の極限で$e_j(n)e_j(n)'$に収束するものを構成します。例えば、

\Sigma_m^{(j)}=e_j(n)e_j(n)'+\frac{1}{m}I_n

とすれば、各$m$に対して$\Sigma_m^{(j)}$は正定値対称行列であり、列$\{\Sigma_m^{(j)}\}$は$m\rightarrow\infty$で$e_j(n)e_j(n)'$に収束します。さて、各$\Sigma_m^{(j)}$は正定値対称行列なので、(9)に代入することで

\text{tr}(H_i^0\Sigma_m^{(j)})=\text{tr}(H_i^0e_j(n)e_j(n)')+\frac{1}{m}\text{tr}(H_i^0)=0

が各$m$で成立することが分かります。ここで、$m\rightarrow\infty$とすれば

\text{tr}(H_i^0e_j(n)e_j(n)')=0

が得られます。左辺をトレースの性質を用いて変形すればこの等式は

\text{tr}(H_i^0e_j(n)e_j(n)')=\text{tr}(e_j(n)'H_i^0e_j(n))=e_j(n)'H_i^0e_j(n)=0

となります。$e_j(n)'H_i^0e_j(n)$は$H_i^0$の$(j, j)$成分そのものであり、この等式が$j=1,\ldots, n$のすべてに対して成立するので、$H_i^0$の対角成分はすべて$0$です。

$H_i^0$の対角成分が分かったので、次に非対角成分についても調べてみます。対角成分のときと同じ考え方で、$j\neq l$に対して$(e_j(n)+e_l(n))(e_j(n)+e_l(n))'$に近づく列を考えます。例えば、

\Sigma_m^{(j, l)}=(e_j(n)+e_l(n))(e_j(n)+e_l(n))'+\frac{1}{m}I_n

とすれば、各$m$に対して$\Sigma_m^{(j,l)}$は正定値対称行列であり、列$\{\Sigma_m^{(j,l)}\}$は$m\rightarrow\infty$で$(e_j(n)+e_l(n))(e_j(n)+e_l(n))'$に収束します。対角成分のときと同じ議論で各$m$に対して$\text{tr}(H_i^0\Sigma_m^{(j,l)})=0$が成立し、極限をとれば、

\text{tr}(H_i^0(e_j(n)+e_l(n))(e_j(n)+e_l(n))')=0

となります。左辺をトレースの性質を用いて展開していくと、

\begin{align}
\text{tr}&(H_i^0(e_j(n)+e_l(n))(e_j(n)+e_l(n))')\\
&=(e_j(n)+e_l(n))'H_i^0(e_j(n)+e_l(n)) \\
&=e_j(n)'H_i^0e_j(n)+e_j(n)'H_i^0e_l(n)+e_l(n)'H_i^0e_j(n)+e_l(n)'H_i^0e_l(n)
\end{align}

となります。第一項と第四項はそれぞれ$H_i^0$の$(j,j)$成分と$(l,l)$成分であり、これはゼロであることが分かっています。第二項と第三項はそれぞれ$H_i^0$の$(j,l)$成分と$(l,j)$成分であり、この値をそれぞれ$h_{jl}, h_{lj}$と置けば、

h_{jl}+h_{lj}=0

であり、$H_i^0$は対称行列なので、

h_{jl}=h_{lj}=0

が成立します。したがって、$H_i^0$の非対角成分はすべて$0$です。

$H_i^0$の対角成分と非対角成分を調べた結果、すべて成分$0$であることが分かりました。したがって、すべての$i=1,\ldots,k$に対して$H_i^0=0$が成立します。(7)に$H_i^0=0$を代入することで、

\hat{\beta}=A^0Y

となり、$\hat{\beta}$は線形推定量です。$\hat{\beta}$は$\boldsymbol{F}_2$において不偏な推定量から任意に選べたので、$\boldsymbol{F}_2$において不偏な推定量はすべて線形推定量であることが証明できました。■

命題4の証明のポイント

この証明で最も重要なポイントは「推定量が$\boldsymbol{F}_2$において不偏であるためには、あらゆる正定値対称行列$\Sigma$に対して$\text{tr}(H_i^0\Sigma)=0$が成り立つ必要がある」という点です。この条件から推定量が線形に限られることが導かれています。

もし$\Sigma=I_n$であれば$\text{tr}(H_i^0)=0$という一つの等式だけが課されます。つまり、対角成分の和がゼロになればよいだけなので、$H_i^0$はゼロ行列以外も許され、非線形推定量が存在する余地が残ります。これが$\boldsymbol{F}_2^0$の状況です。

ところが、$\Sigma$が全ての正定値対称行列を動くとすると、$H_i^0$は膨大な数の等式$\text{tr}(H_i^0\Sigma)=0$を同時に満たさなければなりません。その結果、この等式がすべての$\Sigma$に対して成り立つには$H_i^0$をゼロ行列にするしかない、というのが$\boldsymbol{F}_2$の状況です。

このようなメカニズムで、不偏性を広い範囲で要求するほど取りうる推定量の選択肢が狭くなる、という現象が発生しているわけです。

A Modern Gauss-Markov Theoremに対する反論内容のまとめ

不偏性の要求範囲による取り得る推定量の違い

少し複雑な内容が続いたので、ここまでの議論の内容を整理してみましょう。争点になっているのは「$\boldsymbol{F}_2$において不偏な推定量」と「$\boldsymbol{F}_2^0$において不偏な推定量」にどんな違いがあるか、という点です。

命題1に対する反例を構成する過程で見たように、「$\boldsymbol{F}_2^0$において不偏な推定量」には非線形推定量が存在します。一方で、命題4の証明で明らかになったのは「$\boldsymbol{F}_2$において不偏な推定量」には線形推定量しか存在しないということです。

unbiased_estimator_comparison.png

$\boldsymbol{F}_2^0$において不偏な推定量は$\Sigma=I_n$の範囲においてのみ不偏推定量であればOKです。一方で、$\boldsymbol{F}_2$において不偏な推定量にはどんな正定値対称行列$\Sigma$が来ても常に不偏であることが要求され、より強い条件が課されています。推定量により強い条件を課すことそのものが、取りうる推定量の選択肢を狭めているわけです。

A Modern Gauss-Markov Theoremに対する反論

「A Modern Gauss-Markov Theorem」で示されている定理を再掲します。

命題2. 現代版Aitkenの定理:推定量$\hat{\beta}$が$\boldsymbol{F}_2$において不偏な推定量であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'\Sigma^{-1}X)^{-1}

がすべての$F\in\boldsymbol{F}_2$に対して成立する。

命題3. 現代版Gauss-Markovの定理:推定量$\hat{\beta}$が$\boldsymbol{F}_2$において不偏な推定量であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'X)^{-1}

がすべての$F\in\boldsymbol{F}_2^0$に対して成立する。

この定理は両方とも真であり、一見するとそれぞれ古典的なAitkenの定理とGauss-Markovの定理から「線形」の仮定を除くことに成功しているように見えます。しかし、命題4によると推定量に対して「$\boldsymbol{F}_2$において不偏」という条件を課している時点で、推定量に対して「線形」という条件が暗に導入されてしまっていることになります。つまり、「A Modern Gauss-Markov Theorem? Really?」での反論の内容は、

「$\boldsymbol{F}_2$において不偏な推定量」という条件の時点で線形推定量に絞っていることになるんだから、結局のところAitken/Gauss-Markovの定理から「線形」の条件外せてないよね?古典的な定理から何も変わってないよね?

ということです。推定量の不偏性をどの分布族に対して要求するかが重要な問題だったわけです。

いやーおもしろいですね。「A Modern Gauss-Markov Theorem」が出たときは、へーすごいなー、と思っていただけだったのですが、こんな事実が隠されているとは思いませんでした。ちなみに、「A Modern Gauss-Markov Theorem? Really?」には

線形モデルの理論に精通し、統計的決定理論の基本概念に慣れ親しんだ者にとって、この結果は驚くべきものではないだろう。

と書いてあるのですが、全く精通してなくて慣れ親しんでもいない私にとっては、線形推定量しか存在しないという結果は驚きでした。

独立標本の場合のAitken/Gauss-Markovの定理

命題4により$\boldsymbol{F}_2$において不偏な推定量には線形推定量しか存在しません。これにより、「A Modern Gauss-Markov Theorem」の最も重要な主張である現代版Aitkenの定理は古典的Aitkenの定理に完全に一致することになってしまいました。もう救いはないのでしょうか?

もちろんこのままでは終わりません。この反論に対して、Econometricaに掲載されたバージョンの「A Modern Gauss-Markov Theorem」では独立標本という仮定を追加することで、実際に非線形推定量が存在する設定を構築することに成功しています。

独立標本の場合の現代版Aitkenの定理

観測値が互いに独立であるような場合を考えます。このとき誤差分散の大きさは観測値ごとに異なっていても良いものとします。$\boldsymbol{F}_2^{*}$を(1)(2)(3)に観測値が互いに独立であるという条件を追加した分布の集合とします。この場合、誤差ベクトルの分散共分散行列$\Sigma$は自動的に異なる対角成分をもつ対角行列となります。また、$\boldsymbol{F}_2^{*}\subset\boldsymbol{F}_2$が成立しています。

現代版Aitkenの定理に独立標本の仮定を追加したものが以下の命題5です。この命題の証明は直接書かれておらず、命題2と同じ方針で証明できることが記載されているのみですが、たぶん正しいでしょう。

命題5. 現代版Aitkenの定理 (独立標本の場合)
推定量$\hat{\beta}$が$\boldsymbol{F}_2^{*}$において不偏な推定量であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'\Sigma^{-1}X)^{-1}

がすべての$F\in\boldsymbol{F}_2^{*}$に対して成立する。

この命題によるとGLS推定量はBUEになります。これまでの議論を踏まえて確認すべきことは$\boldsymbol{F}_2^{*}$において不偏な推定量の中に、非線形推定量が存在するか、という点です。そしてこのケースでは非線形推定量は実際に存在します。実際に以下のような非線形推定量を考えてみましょう。

\tilde{\beta}=\hat{\beta}_{OLS}+y_i(y_j-x_j\hat{\beta}_{-i})a

ここで、$i\neq j$、$a$は$0$でない任意の$k×1$ベクトル、$y_j$と$x_j$はそれぞれ$Y$と$X$の第$j$行、$\hat{\beta}_{-i}$は第$i$観測値を除いて算出したOLS推定量です。不偏性を示すため、この推定量の期待値を考えます。まず、第一項$\hat{\beta}_{OLS}$部分の期待値が$\beta$であることは分かっているので、第二項$y_i(y_j-x_j\hat{\beta}_{-i})$の期待値を計算しましょう。まず、

E[y_j-x_j\hat{\beta}_{-i}]=x_j\beta+E[e_j]-x_jE[\hat{\beta}_{-i}]=x_j\beta-x_j\beta=0

です。$y_i$と$y_j-x_j\hat{\beta}_{-i}$は独立なので、

E[y_i(y_j-x_j\hat{\beta}_{-i})]=E[y_i]\cdot E[y_j-x_j\hat{\beta}_{-i}]=E[y_i]\cdot 0=0

となります。したがって、$E[\tilde{\beta}]=\beta$であり、$\tilde{\beta}$は$\boldsymbol{F}_2^{*}$において不偏な推定量です。したがって、$\boldsymbol{F}_2^{*}$において不偏な推定量の中に非線形推定量が存在することが分かりました。ただし、デザイン行列$X$によっては$y_j-x_j\hat{\beta}_{-i}$が恒等的にゼロになり$\tilde{\beta}=\hat{\beta}_{OLS}$となってしまう場合があります。例えば$n×k$のデザイン行列$X$に対して、$n=k+1$となる場合がその代表例です。この例においては非線形推定量の存在がデザイン行列の構造に影響を受けることに注意が必要です。

独立標本の場合の現代版Gauss-Markovの定理

$\boldsymbol{F}_2^{*}$から誤差分散の大きさがすべての観測値で同一である場合を考えます。このケースでは誤差ベクトルの分散共分散行列は$I_n$となります。このような場合の分布の集合を$\boldsymbol{F}_2^{*0}$と置くことにします。$\boldsymbol{F}_2^{*0}\subset\boldsymbol{F}_2^{*}$が成立しています。

命題5の系として以下のような命題も論文では紹介されています。

命題6. 現代版Gauss-Markovの定理 (独立標本の場合)
推定量$\hat{\beta}$が$\boldsymbol{F}_2^{*}$において不偏な推定量であるとき、

V_F[\hat{\beta}]\succeq \sigma^2(X'X)^{-1}

がすべての$F\in\boldsymbol{F}_2^{*0}$に対して成立する。

ただし、不偏性が要求されている範囲と分散の下界が成立する範囲が異なることには注意が必要です。

独立標本の場合の解釈

上記の2つの命題において、推定量の不偏性を要求する範囲を$\boldsymbol{F}_2$から$\boldsymbol{F}_2^{*}$に狭めました。これにより、取りうる不偏推定量の範囲が広がり非線形推定量が復活しました。非線形推定量が存在するということは、古典的な定理から「線形」の仮定を外したことに実質的な意味があることになります。

ただし、これらの命題が古典的な定理の純粋な拡張とは言えないということには注意が必要です。独立性の仮定など古典的な定理には存在しない追加の仮定が入っているためです。また、独立性という条件を課したときの不偏推定量のクラスが古典的な定理と同じなのかという疑問もあります。したがって、「線形性の条件をGauss-Markovの定理やAitkenの定理から外せる」という主張を手放しで受け入れることができるかについては微妙なところがあるようです。

観測値間の独立性はよく仮定されることではあるので、これらの命題は古典的なGauss-Markovの定理やAitkenの定理の純粋な拡張とは言えないまでもこれはこれで価値がある、といった感じかなと思いました。

論争の決着について

「A Modern Gauss-Markov Theorem」への反論に対する2024年の回答論文「Reply to: Comment on "A Modern Gauss–Markov Theorem."」においてHansenさんは以下のように記載しています。以下の引用文については定理の番号が本記事のものと揃うように一部改変しています。

まず、現代版Aitkenの定理が実質的に新しくないことに対しては、

Portnoy (2022) と Pötscher and Preinerstorfer (2024) は、洞察に富んだ一連の論文において、命題2の特定の文脈では、βの不偏推定量はすべて線形推定量であることを示した。~~(中略)~~ しかしながら、不偏推定量が線形でなければならないという事実は、命題2の意義を著しく限定するものである。

と反論を認める形であり、決着がついていると考えてよさそうです。独立標本のケースについても

命題5は古典的な定理の厳密な改良ではない。古典的定理は無相関な標本のみを要求するのに対し、$\boldsymbol{F}_2^{*}$​は独立な標本に限定しているからである。

と独立標本版の定理が古典的な定理の純粋な拡張になっていないことは自ら認めています。その一方で、以下のように独立標本のケースの教育的な重要性について述べています。

BLUEやGauss-Markovの定理を教える理由は、標準的な推定量に対する簡潔な正当化が欲しいからである。BLUEやGauss-Markovの定理は、線形推定量への不自然な制約があるためこの目的には適していない。~~(中略)~~ 独立標本のケースは教育において、なぜGLS推定量に注目するのかを示すために使うことができる。また、誤差の分散が均一である場合の独立標本のケースはBUEが通常の最小二乗法であることを導くためにも使える。

ただし、「A Modern Gauss-Markov Theorem? Really? 」の著者の一人であるPötscherさんはこの回答論文に対する再反論を出していて、独立標本のケースについても様々な側面から批判的な意見を出しています。しかし、Hansenさんは(たぶん)再反論に対して応答していないので、決着がついたのかはちょっと謎です。Pötscherさんは再反論の論文の中で「この件についてはちょっと疲れた」と書いているので双方とも疲れているのかもしれません。傍から見てる分には面白いんですけどね。

終わりに

今更ながらではありますが、「A Modern Gauss-Markov Theorem」に関してとても面白く、少なくとも私にとっては驚きの事実が示されていた論争があったのでまとめてみました。一見単純に見える「Gauss-Markovの定理から線形性を外せるか」という問いが、掘り下げると不偏性の要求範囲によって不偏推定量のクラスが変化するという問題に繋がっていくのは印象的でした。$\boldsymbol{F}_2$で不偏性を要求するとそもそも非線形推定量は存在せず、$\boldsymbol{F}_2^0$なら非線形推定量は存在するがOLS推定量はBUEではない、$\boldsymbol{F}_2^{*}$なら非線形推定量が存在しGLS推定量がBUEになる、と結果が大きく変わって面白いです。

論争を追う過程でGauss-Markovの定理のような古典的な定理でも、これまで実は曖昧な理解だったところがたくさんあって勉強になりました。奥が深いですね。

参考文献

Hansen, B. E. (2021b). A Modern Gauss-Markov Theorem. University of Wisconsin. (Working Paper, revised December 2021)
Econometrica受理版の誤りを修正した改訂版。
PDF

Hansen, B. E. (2022a). A Modern Gauss-Markov Theorem. Econometrica, 90(3), 1283–1294. https://doi.org/10.3982/ECTA19255
Econometrica出版版。独立標本の条件下での非線形不偏推定量の存在を示す定理(Theorem 5, 6)を追加。
PDF

Pötscher, B. M., & Preinerstorfer, D. (2022). A Modern Gauss-Markov Theorem? Really? arXiv:2203.01425.
Hansen (2022a) に対する反論論文。Hansen の定理は古典的なガウス・マルコフ定理・Aitken 定理の言い換えに過ぎず、独立性仮定などの追加条件はこれらの定理の精神と異質であると主張。Econometrica 掲載版(2024)の完全版。
arXiv

Portnoy, S. (2022). Linearity of Unbiased Linear Model Estimators. The American Statistician, 76(4), 372–375. https://doi.org/10.1080/00031305.2022.2076743
線形モデルにおいて十分に広い分布族で不偏な可測推定量は線形でなければならないことを証明。BUE と BLUE の等価性を示し、Hansen の主張に疑義を呈した。(要購読)
Taylor & Francis

Lei, L., & Wooldridge, J. (2022). What Estimators Are Unbiased For Linear Models? arXiv:2212.14185.
有限共分散行列を持つすべての線形モデルで不偏な推定量は線形推定量のみであることを、Pötscher & Preinerstorfer (2022)・Portnoy (2022) とは異なる証明戦略で示した論文。
arXiv

Hansen, B. E. (2024). Reply to: Comment on "A Modern Gauss–Markov Theorem." Econometrica, 92, 925–928. https://doi.org/10.3982/ECTA22362
Pötscher & Preinerstorfer (2024)・Portnoy (2022) などの批判への回答。Theorem 4 の文脈では不偏推定量がすべて線形であることを認めつつ、独立標本の場合(Theorem 5, 6)にこそ主張の意義があると論じた。
Wiley

Pötscher, B. M. (2024). Comments on B. Hansen's Reply to "A Comment on: 'A Modern Gauss-Markov Theorem'", and Some Related Discussion. arXiv:2406.03971.
Hansen (2024) への再反論。Hansen の現代版 Aitken 定理は古典的 Aitken 定理と実質的に同一であり、独立標本への議論の転換も元の主張の擁護にはならないと主張。Portnoy (2023) および Lei & Wooldridge (2022) の証明上の問題点も指摘。
arXiv

  1. 線形推定量$AY$が不偏である条件は、$E[AY]=AX\beta=\beta$より、$AX=I_k$です。これは分散共分散行列$\Sigma$に依存していません。

  2. 非線形推定量は「A Modern Gauss-Markov Theorem? Really?」に記載されている構成方法に従って具体例を作成しています。構成方法について興味がある方は論文を見てみてください。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?