はじめに
東京大学/株式会社Nospare リサーチャーの栗栖です.
この記事から数回にわたり,Petersen and Mueller (2019) で提案された新しい回帰モデルであるフレシェ回帰と最近の研究成果 (Kurisu and Otsu (2023)) について紹介します.今回はフレシェ回帰についての基本事項を解説します.
通常の回帰線形モデルでは説明変数ベクトル$X=(X_1,\dots,X_p)' \in \mathbb{R}^p$で条件付けた応答変数$Y\in \mathbb{R}$の期待値を
\mathbb{E}[Y|X=x] = \beta'X = \beta_0 + \beta_1X_1 + \dots + \beta_p X_p
という形でモデル化しますが,フレシェ回帰はこの考え方を一般化して,応答変数が実数(またはベクトル)に限らず,行列やグラフ,確率分布,方向データ,組成データなどの形で与えられる場合にそれらの応答変数を説明変数ベクトル$X=(X_1,\dots,X_p)' \in \mathbb{R}^p$を用いて説明する統計分析手法です.
フレシェ平均
フレシェ回帰の導入にあたり必要な概念としてまずはフレシェ平均の導入から始めます.$p$次元確率ベクトル$Y$の「平均」は通常その期待値
\eta = \mathbb{E}[Y]
で定義されます.簡単な計算により,この期待値$\eta$は以下を満たすことがわかります.
\eta = \text{argmin}_{y \in \mathbb{R}^p}\mathbb{E}[\|Y - y\|^2].
ここで$y = (y_1,\dots, y_p)' \in \mathbb{R}^p$に対して$\|y\| = \sqrt{y_1^2 + \dots + y_p^2}$ (ユークリッド距離) です.この関係を一般の距離空間 $(\mathbb{Y}, d)$ に拡張したものを「フレシェ平均」といいます.すなわち,$(\mathbb{Y},d)$を距離$d$が定義された距離空間とし,$Y$を$\mathbb{Y}$に値をとるランダムオブジェクト(確率変数の考え方を一般化したもの)とします.このとき,以下を満たす$\eta_\oplus \in \mathbb{Y}$をランダムオブジェクト$Y$のフレシェ平均といいます.
\eta_\oplus = \text{argmin}_{\eta \in \mathbb{Y}}\mathbb{E}[d^2(Y,\eta)].
フレシェ回帰
Petersen and Mueller (2019) ではフレシェ平均の考え方を一般化して「フレシェ回帰」と呼ばれる回帰モデルが提案されています.以下では$Y$は距離空間$(\mathbb{Y},d)$に値をとるランダムオブジェクト,$X$を$\mathbb{R}^p$に値をとる確率ベクトルとします.特にフレシェ回帰の文脈では$X$は (ユークリッド)予測子((Euclidean) predictor) と呼ばれます.
フレシェ回帰関数
まず$Y \in \mathbb{R}$の場合を考えましょう.このとき,$X = x$を与えた時の$Y$の条件付き期待値は以下で定義することができます.
\begin{align*}
\eta(x) &= \text{argmin}_{y \in \mathbb{R}}\mathbb{E}[|Y - y|^2|X = x]\\
&=\mathbb{E}[Y|X=x]
\end{align*}
この関係を$Y$が一般の距離空間$(\mathbb{Y},d)$に値をとる場合に拡張することを考えましょう.上記の関係において,絶対値$|\cdot|$を一般の距離空間上の距離$d(\cdot, \cdot)$に置き換えてみます.
\eta_\oplus(x) = \text{argmin}_{\eta \in \mathbb{Y}}\mathbb{E}[d^2(Y,\eta)|X = x].
$\eta_\oplus(x)$をランダムオブジェクト$Y$の条件付きフレシェ平均と呼び,特にフレシェ回帰の文脈では「フレシェ回帰関数」と呼びます.
大域的フレシェ回帰
ここでは$Y \in \mathbb{R}$の場合の通常の線形回帰モデルについての復習から始めて,一般のランダムオブジェクト$Y$に対する回帰モデルである大域的フレシェ回帰モデルについて説明します.
まず$Y \in \mathbb{R}$の場合,通常の線形回帰モデルでは予測子$X=x$を与えた時の$Y$の条件付き期待値が$x$に関して線形であると仮定して分析を行います.
\eta(x) = \mathbb{E}[Y|X=x] = \beta_0 + \beta'_1(x - \mu_X)
ここで$\mu_X = \mathbb{E}[X]$であり,$(\beta_0,\beta_1)'\in \mathbb{R}^{p+1}$は以下の方程式の解として定義されます.
(\beta_0,\beta_1)' = \text{argmin}_{(b_0,b_1)' \in \mathbb{R}^{p+1}}\mathbb{E}\left[\left(Y - b_0 - b'_1(X - \mu_X)\right)^2\right].
上記の方程式を解くと
\beta_0 = \mathbb{E}[Y], \beta_1 = \Sigma_X^{-1}\sigma_{YX}
となることがわかります.ここで$\Sigma_X = \text{Var}(X) = \mathbb{E}[(X - \mu_X)(X - \mu_X)']$, $\sigma_{YX} = \mathbb{E}[Y(X - \mu_X)]$です.この解を$\eta(x)$の式に代入すると以下の関係式が得られます.
\begin{align*}
\eta(x) &= \mathbb{E}[Y] + \sigma'_{YX}\Sigma_X^{-1}(x - \mu_X)\\
&= \mathbb{E}[Y] + \mathbb{E}[Y(X - \mu_X)'\Sigma_X^{-1}(x - \mu_X)]\\
&= \mathbb{E}[Y\{1 + (X - \mu_X)'\Sigma_X^{-1}(x - \mu_X)\}]\\
&=: \mathbb{E}[Yw(X,x)]
\end{align*}
ここで$\mathbb{E}[w(X,x)] = 1$であることに注意すると,
\begin{align*}
&{d \over dy}\mathbb{E}[w(X,x)|Y - y|^2] = 0\\
\Leftrightarrow &\ \mathbb{E}[w(X,x)]y = \mathbb{E}[w(X,x)Y]\\
\Leftrightarrow &\ y = \mathbb{E}[w(X,x)Y].
\end{align*}
となることがわかります.従って
\eta(x) = \text{argmin}_{y \in \mathbb{R}}\mathbb{E}[w(X,x)|Y - y|^2]
が成り立ちます.この関係を$Y$が一般の距離空間$(\mathbb{Y},d)$に値をとる場合に拡張することを考えましょう.上記の関係において,絶対値$|\cdot|$を一般の距離空間上の距離$d(\cdot, \cdot)$に置き換えてみます.
L_\oplus(x) = \text{argmin}_{\eta \in \mathbb{Y}}\mathbb{E}[w(X,x)d^2(Y,\eta)].
$L_\oplus(x)$をランダムオブジェクト$Y$の大域的フレシェ回帰関数と呼びます.
フレシェ回帰関数の推定
ここでは独立同分布なデータ$\{(Y_i,X_i)\}_{i=1}^{n}$, $Y_i \in \mathbb{Y}$, $X_i \in \mathbb{R}^p$が利用可能であるとします.このとき大域的フレシェ回帰関数$L_\oplus(x)$はそのサンプル対応を考えることで以下のようにして推定することができます.
\hat{L}_\oplus(x) = \text{argmin}_{\eta \in \mathbb{Y}}{1 \over n}\sum_{i=1}^n \{1 + (X_i - \bar{X})'\hat{\Sigma}_X^{-1}(x - \bar{X})\}d^2(Y_i,\eta).
ここで $\bar{X} = n^{-1}\sum_{i=1}^n X_i$, $\hat{\Sigma}_X = n^{-1}\sum_{i=1}^n (X_i - \bar{X})(X_i - \bar{X})'$です.実際,適当な条件の下で$n \to \infty$として
\hat{L}_\oplus(x) \stackrel{p}{\to} L_\oplus(x)
が成り立つこと,即ち$\hat{L}_\oplus(x)$の一致性を示すことができます.詳しく知りたい方はPetersen and Mueller(2019)を参照してください.
距離空間の例
この記事の最後に大域的フレシェで用いられる距離空間$(\mathbb{Y},d)$の具体例について紹介しておきます.
関数データ
$\mathbb{Y}$として,$[0,1]$上で定義された2乗可積分な関数の空間を考えましょう.
\mathbb{Y} = \left\{f:[0,1] \to \mathbb{R}:\int_0^1 f^2(x)dx<\infty \right\}
$\mathbb{Y}$に以下で定義される$L_2$距離 $d_{L^2}$ を導入することで$(\mathbb{Y},d_{L^2})$は距離空間となります.
d_{L^2}(f,g) = \sqrt{\int_0^1 (f(x) - g(x))^2dx}.
行列データ
次に$\mathbb{Y}$として,対称かつ正定値な$d \times d$行列の空間を考えましょう.
\mathbb{Y} = \left\{A \in \mathbb{R}^{d \times d}:\ \text{$A$は対称かつ正定値}\right\}.
このとき,以下で定義されるフロベニウス距離$d_F$やコレスキー分解距離$d_C$を導入することで$(\mathbb{Y},d_F)$, $(\mathbb{Y},d_C)$は距離空間となります.
d_F(A,B) = \sqrt{\text{trace}((A - B)'(A - B))}.
ここで,$\text{trace}(A)$は行列$A=(a_{ij})$のトレース$\text{trace}(A) = \sum_{i=1}^d a_{ii}$です.
d_C(A,B) = \sqrt{\text{trace}((A^{1/2} - B^{1/2})'(A^{1/2} - B^{1/2}))}.
ここで$A^{1/2}$は行列$A$のコレスキー分解です.特に$A = (A^{1/2})'(A^{1/2})$, $A^{1/2}$は上三角行列です.
確率分布データ
次に$\mathbb{Y}$として,$\mathbb{R}$上で定義された分布関数の空間を考えましょう.
\mathbb{Y} = \left\{F:\text{$\mathbb{R}$上の分布関数}:\int_\mathbb{R}x^2 dF(x)<\infty \right\}
$\mathbb{Y}$に以下で定義されるワッサースタイン距離 $d_{W}$ を導入することで$(\mathbb{Y},d_{W})$は距離空間となります.
d_{W}(F,G) = \sqrt{\int_0^1 (F^{-1}(x) - G^{-1}(x))^2dx}.
ここで$F^{-1}$は以下で定義される分布関数$F$の分位点関数です:$F^{-1}(t) = \inf\{x \in \mathbb{R}:F(x) \geq t\}$.
Petersen and Mueller(2019) では$Y$が行列データの場合の応用例として脳波データの分析例が紹介されています.
まとめ
この記事では近年開発された大域的フレシェ回帰について紹介しました.株式会社Nospareには今回の記事で紹介したランダムオブジェクト解析に限らず,統計学の様々な分野を専門とする研究者が所属しています.統計アドバイザリーやビジネスデータ分析につきましては株式会社Nospareまでお問い合わせください.
参考文献
[1] Kurisu, D. and Otsu, T. (2023) Model averaging for global Frechet regression.
[2] Petersen, A. and Mueller, H.-G. (2019) Frechet regression for random objects with Euclidean predictors. Annals of Statistics 47, 691-719.