まとめ
先に要点だけまとめておく。
- 疑似尤度法は分布型を完全に特定せずとも、平均と分散の関係さえ特定できていれば、興味のあるパラメータをキチンと推定できる方法
- ここで言う「関係が特定できている」とは、「分散が平均の関数となっており、その関数を知っている」状況を指す1
- 疑似尤度法で得られた推定量は、分布型を完全に特定している状況における最尤推定量よりは(一般には)精度が悪い2
- 分布について課している仮定がより緩くなっていることの引き換えに精度が落ちている、というイメージ
要は疑似尤度法とは「最尤推定量と比較して、より少ない仮定の下でパラメータの推定を可能にする方法」といえる。
疑似尤度とは?
疑似尤度法はWedderburn (1974)で一般化線形モデルの拡張として提案され、医療統計における経時測定データの分析などでよく利用される一般化推定方程式(GEE)の元にもなった手法である。
独立な確率変数$Y_1, \dots, Y_n$の各平均$\mu_i$と分散$v_i$が、ある既知の関数$v$を用いて
$$
v_i = v(\mu_i)
$$
という関係にあるとき、疑似尤度$Q$は
$$
\begin{align}
\frac{\partial Q(y_i, \mu_i)}{\partial \mu_i} = \frac{y_i - \mu_i}{v(\mu_i)} \tag{1}
\end{align}
$$
を満たす関数として定義される。いきなりこのような定義をされても意味が分からないが、実はこれは1変数の指数型分布族に対する対数尤度が満たす式となっており、そのアナロジーとして見ることができる(なので正確には、疑似対数尤度と呼ぶべきもの)。実際、1変数指数型分布族
$$
f(y) = \exp(y\theta - g(\theta))
$$
の平均、分散はそれぞれ$g'(\theta), g''(\theta)$である(これはモーメント母関数を考えれば容易に導かれる)ことから、この対数尤度が上の関係式(1)を満たすことがわかる。またこれより、1次元指数型分布族においては対数尤度と疑似尤度は一致することが言える。
このように、ある意味逆の発想で、指数型分布族の対数尤度において成立する式(1)が成り立つ関数として定義したものが疑似尤度である。
何が”疑似”なの?
上のように疑似尤度は通常の尤度の類推として考えられるものだが、平均と分散の関係、すなわちモーメントに関する仮定のみから構成している、という点で尤度とは異なっている。
通常、尤度とは「確率(密度)関数をパラメータについての関数と見たもの」として説明されるが、これは「想定している分布が、ある有限個のパラメータのみで特徴づけられる」という仮定に基づいている。このように、モデルが有限個のパラメータで表現されている設定を、パラメトリックという(よくある線形回帰とか$t$検定とかは基本的にはこっちの話)。
一方、疑似尤度を考える上でモデルに仮定しているのは平均と分散の関係のみであり、その他については一切仮定を課していない(つまり、モデルは有限個のパラメータで規定されていない)。このように、興味のある部分だけをパラメータで表現し、その他については仮定を置かない設定をセミパラメトリックという。疑似尤度法で想定しているのはこちらである。
このような点で、疑似尤度は通常の尤度とは異なるものである一方、通常の(対数)尤度が持つような以下の性質を満たす。
$$
E\left[\frac{\partial Q}{\partial \mu} \right] = 0, \quad E\left[\left(\frac{\partial Q}{\partial \mu}\right)^2 \right] = - E\left[\frac{\partial^2 Q}{\partial \mu^2} \right] = \frac{1}{v(\mu)}
$$
1つ目の式はスコア関数(対数尤度の微分)の平均が0であることに対応する。また、2つ目の式は通常のフィッシャー情報量が満たす性質に対応し、この量を疑似フィッシャー情報量という。
面白いことに、パラメトリックモデルを想定したとき、その対数尤度を$L$とすると、疑似フィッシャー情報量と(通常の)フィッシャー情報量の間には以下のような大小関係が成立する。
$$
\begin{align}
-E\left[\frac{\partial^2 Q}{\partial \mu^2} \right] \leq - E\left[\frac{\partial^2 L}{\partial \mu^2} \right] \tag{2}
\end{align}
$$
直感的には、「モデルの分布型を知っているときの情報の方が、平均と分散の間の関係だけ知っているときの情報よりも大きい」と見ることができる。
以上のように疑似尤度は、モデルに課している仮定の強さという点で尤度とは異なるものの、(対数)尤度が持つ性質を備えているという点で「尤度っぽいもの」である。
疑似尤度法
以上の性質を踏まえ、尤度の代わりに疑似尤度を用いた推測のことを疑似尤度法という。
最尤推定量は一致性、漸近正規性を持ち、その漸近分散はフィッシャー情報量の逆数に一致するが、それと同様に疑似尤度推定量(疑似尤度方程式を解くことで得られる推定量)も一致性、漸近正規性を持ち、その漸近分散は疑似フィッシャー情報量の逆数に一致することが知られている。上記の(2)の性質から、一般に疑似尤度推定量の精度は最尤推定量よりも低く、これは平均と分散の関係という限られた情報のみから推定を行ったことの代償と見ることができる。
一般的にモデルに対する仮定の強さと推測の精度はトレードオフの関係にあり、セミパラメトリックな推測はパラメトリックな推測に対し、推測の効率を犠牲にして仮定を緩和したものだと考えることができる。
参考
- Wedderburn, R. W., Quasi-likelihood functions, generalized linear models, and the Gauss-Newton method. Biometrika, Vol.61, No.3, pp.439-447, 1974