はじめに
東京大学/株式会社Nospare リサーチャーの栗栖です.
今回の記事では,前回紹介したフレシェ回帰に関して,最近の研究成果「大域的フレシェ回帰に対するモデル平均」 (Kurisu and Otsu (2023)) について紹介します.
大域的フレシェ回帰
まず大域的フレシェ回帰の復習から始めます(より詳しくは前回の記事を参照してください).$Y$は距離空間$(\mathbb{Y},d)$に値をとるランダムオブジェクト,$X$を$\mathbb{R}^p$に値をとる確率ベクトル (予測子) とします.このとき,フレシェ回帰関数は以下で定義されます.
\eta_\oplus(x) = \text{argmin}_{\eta \in \mathbb{Y}}\mathbb{E}[d^2(Y,\eta)|X = x].
またランダムオブジェクト$Y$の大域的フレシェ回帰関数は以下で定義されます.
L_\oplus(x) = \text{argmin}_{\eta \in \mathbb{Y}}\mathbb{E}[w(X,x)d^2(Y,\eta)].
ここで$w(X,x) = 1 + (X - \mu)'\Sigma^{-1}(x-\mu)$, $\mu = \mathbb{E}[X]$, $\Sigma = \mathbb{E}[(X - \mu)(X - \mu)']$ です.
大域的フレシェ回帰関数のモデル平均
ここでは独立同分布なデータ$\{(Y_i,X_i)\}_{i=1}^{n}$, $Y_i \in \mathbb{Y}$, $X_i \in \mathbb{R}^p$が利用可能であるとします.このとき大域的フレシェ回帰関数$L_\oplus(x)$はそのサンプル対応を考えることで以下のようにして推定することができます.
\hat{L}_\oplus(x) = \text{argmin}_{\eta \in \mathbb{Y}}{1 \over n}\sum_{i=1}^n \{1 + (X_i - \bar{X})'\hat{\Sigma}_X^{-1}(x - \bar{X})\}d^2(Y_i,\eta).
ここで $\bar{X} = n^{-1}\sum_{i=1}^n X_i$, $\hat{\Sigma}_X = n^{-1}\sum_{i=1}^n (X_i - \bar{X}_i)(X_i - \bar{X})'$です.実際,適当な条件の下で$n \to \infty$として
\hat{L}_\oplus(x) \stackrel{p}{\to} L_\oplus(x)
が成り立つこと,即ち$\hat{L}_\oplus(x)$の一致性を示すことができます.詳しく知りたい方はPetersen and Mueller(2019)を参照してください.
以下では,フレシェ回帰関数を組み合わせることで$Y_i \in \mathbb{Y}$の予測精度を向上させることを考えてみます.いま,予測子(predictor) の組 $\boldsymbol{X}_m:=(X_1,\dots, X_{k_m}) \in \mathbb{R}^{k_m}$, $1 \leq k_1 < k_2 < \dots < k_M$が与えられているとし,各組に対応するフレシェ回帰関数を$L_\oplus^{(m)}$, $m=1,\dots,M$とします.一般には$X_1,\dots,X_M$の任意の組み合わせに対応するフレシェ回帰関数を考えることができますが,ここでは議論を簡単にするため予測子の組み合わせは包含関係があるとしています.
$(\mathbb{Y},d)$が$p$次元ユークリッド空間の場合から考えましょう.$M$個のベクトル$v^{(m)}\in \mathbb{R}^p$, $m=1,\dots,M$に対し,その加重平均は$v_{\bf{w}} = \sum_{m=1}^M w_m v^{(m)}$で与えられますが,この値は以下のように定義することもできます.
v_{\bf{w}} = \text{argmin}_{\eta \in \mathbb{R}^p}\sum_{m=1}^M w_m\|v^{(m)} - \eta\|^2.
ここで${\bf w} = (w_1,\dots,w_M)'$は$w_m \geq 0$, $\sum_{m=1}^M w_m = 1$を満たす重みベクトル,$\|\cdot\|$はユークリッド距離です.この表現を拡張し,大域的フレシェ回帰関数のモデル平均(加重平均)を以下で定義します.
m_\oplus({\bf w},x) = \text{argmin}_{\eta \in \mathbb{Y}}\sum_{m=1}^Mw_md^2(L_\oplus^{(m)}(x),\eta).
最適な重みベクトルの推定
$m_\oplus({\bf w},x)$は上記の定義において$L_\oplus^{(m)}(x)$をその標本対応に置き換えることで推定することができます.
\begin{align*}
\hat{m}_\oplus({\bf w},x) &= \text{argmin}_{\eta \in \mathbb{Y}}\sum_{m=1}^Mw_md^2(\hat{L}_\oplus^{(m)}(x),\eta),\\
\hat{L}_\oplus^{(m)}(x) &= \text{argmin}_{\eta \in \mathbb{Y}}{1 \over n}\sum_{i=1}^n \{1 + (X_i^{(m)} - \bar{X}^{(m)})'(\hat{\Sigma}_X^{(m)})^{-1}(x^{(m)} - \bar{X}^{(m)})\}d^2(Y_i,\eta).
\end{align*}
ここで $X_i^{(m)} = (X_1,\dots, X_{k_m})'$, $\bar{X} = n^{-1}\sum_{i=1}^n X_i^{(m)}$, $\hat{\Sigma}_X^{(m)} = n^{-1}\sum_{i=1}^n (X_i^{(m)} - \bar{X}^{(m)})(X_i^{(m)} - \bar{X}^{(m)})'$です.
さらに大域的フレシェ回帰のモデル平均のパフォーマンスの評価の指標として以下の final prediction error (FPE) を導入します.
\text{FPE}_n({\bf w}) = \mathbb{E}[d^2(\mathcal{Y},\hat{m}_\oplus({\bf w},\mathcal{X}))|\mathcal{D}_n].
ここで$(\mathcal{X},\mathcal{Y})$は$(X_i^{(M)},Y_i)$と独立かつ同分布なデータ,$\mathcal{D}_n = \{ X_i^{(M)},Y_i\}_{i=1}^n$です.FPEは新たなデータが得られたときの予測誤差の期待値に対応しています.したがってこの値が小さくなるように(最適な)重みベクトル${\bf w}$を選べば予測の意味でよいモデル平均を考えることができます.実際に最適な${\bf w}$をデータから選ぶには以下のleave-one-out クロスバリデーション (LOOCV) を最小化することを考えます.
\text{CV}_n({\bf w}) = {1 \over n}\sum_{i=1}^{n}d^2(Y_i,\hat{m}_{\oplus,-i}({\bf w},X_i)).
ここで
\hat{m}_{\oplus,-i}({\bf w},x)= \text{argmin}_{\eta \in \mathbb{Y}}\sum_{m=1}^Mw_md^2(\hat{L}_{\oplus,-i}^{(m)}(x),\eta)
かつ$\hat{L}_{\oplus,-i}^{(m)}(x)$は$\hat{L}_{\oplus}^{(m)}(x)$の計算において$i$番目のデータを除いて計算した値です.
以上の準備の下,最終的な推定量は以下で定義します.
\hat{m}_{\oplus}(\hat{{\bf w}},x),\ \hat{\bf w} = \text{argmin}_{{\bf w} \in \mathbb{W}}\text{CV}_n({\bf w}).
ここで,
\mathbb{W} = \{{\bf w}=(w_1,\dots,w_M)' \in [0,1]^M: \sum_{m=1}^Mw_m=1\}
です.上記の推定量に対して,適当な仮定の下で以下の結果が成り立ちます.
{\text{FPE}_n(\hat{\bf w}) \over \inf_{{\bf w} \in \mathbb{W}}\text{FPE}_n({\bf w})} \stackrel{p}{\to} 1,\ n \to \infty.
この結果はLOOCVで選択した$\hat{\bf w}$は漸近的にFPE(予測誤差)の意味で最適なモデル平均を与えるということを意味しています.
次回の記事では提案手法のパフォーマンスを確認するため,数値実験の結果を紹介します.またフレシェ回帰をRで実行する方法についても紹介する予定です.
まとめ
この記事では大域的フレシェ回帰のモデル平均に関する研究成果 (Kurisu and Otsu (2023)) を紹介しました.株式会社Nospareには今回の記事で紹介したランダムオブジェクト解析に限らず,統計学の様々な分野を専門とする研究者が所属しています.統計アドバイザリーやビジネスデータ分析につきましては株式会社Nospareまでお問い合わせください.
参考文献
[1] Kurisu, D. and Otsu, T. (2023) Model averaging for global Frechet regression.
[2] Petersen, A. and Mueller, H.-G. (2019) Frechet regression for random objects with Euclidean predictors. Annals of Statistics 47, 691-719.