ノンパラメトリック回帰モデルの推定
横浜国立大学/株式会社Nospare リサーチャーの栗栖です.
この記事では前回「ノンパラメトリック回帰モデルの適応的推定(1)」の記事から引き続き,深層ニューラルネットワーク (deep neural network, DNN) を用いたノンパラメトリック回帰モデルの推定について紹介します.今回は特に回帰モデルの回帰関数の適応的な推定方法について紹介します.内容については主に Ohn and Kim (2022) の議論を参考にしています.
ノンパラメトリック回帰モデル
以下のノンパラメトリック回帰モデルを考えましょう:
\begin{align*}
Y_i &= f_0(X_i) + \varepsilon_i,\ i=1,\dots, n,\\
\varepsilon_i &\sim N(0,1).
\end{align*}
ここで,$f_0$ はノンパラメトリック回帰モデルにおける回帰関数,$\varepsilon_i$ は標準正規分布 $N(0,1)$ に従う観測誤差です.
以上のモデルに従う i.i.d. データ $(Y_i,X_i) \in \mathbb{R} \times [0,1]^d$,$i=1,\dots,n$ が観測されるとします.ここではデータを用いて回帰関数 $f_0$ の推定を考えます.
深層ニューラルネットワーク
この記事で考える深層ニューラルネットワーク (deep neural network, DNN) について説明しておきます.
$L \in \mathbb{N}$ を隠れ層の数 (or DNNの深さ),$\mathbf{p}=(d,p_1,\dots,p_{L},1)\in \mathbb{N}^{L+2}$ をDNNの幅パラメータとします.またDNNの活性化関数を$\sigma:\mathbb{R} \to \mathbb{R}$ とします.活性化関数が $\sigma$ でネットワーク構造 $(L,\mathbf{p})$ をもつDNN $f:\mathbb{R}^{d} \to \mathbb{R}$ は以下で定義されます.
f(x) = A_{L+1} \circ \sigma_L \circ A_L \circ \sigma_{L-1} \circ \cdots \sigma_1 \circ A_1(x) .
ここで,$A_{\ell}:\mathbb{R}^{p_{\ell-1}} \to \mathbb{R}^{p_\ell}$ は $A_{\ell}(x) = W_{\ell}x + \mathbf{b}_\ell$で 表される線形変換です.$A_{\ell}$ の表現に出てくる $W_\ell$ は $p_{\ell-1}\times p_\ell$の重み行列で,$\mathbf{b}_{\ell} \in \mathbb{R}^{p_\ell}$ はシフトベクトル,$\sigma_\ell:\mathbb{R}^{p_\ell} \to \mathbb{R}^{p_\ell}$ は成分ごとに活性化関数を並べたもの $\sigma_\ell=(\sigma(z_1),\dots,\sigma(z_{p_\ell}))'$ です.活性化関数のクラスとしては $C$-Lipschitz なものを考えます.これはある正の定数 $C>0$ が存在して任意の $x_1, x_2 \in \mathbb{R}$ に対して $|\sigma(x_1) - \sigma(x_2)| \leq C|x_1 - x_2|$ が成り立つようなクラスで,rectified linear unit (ReLU) 活性化関数 $\sigma(x) = \max\{x,0\}$ や sigmoid 活性化関数 $\sigma(x) = 1/(1+e^{-x})$ などが含まれます.
さらにDNN $f$ に対して,そのパラメータをまとめたベクトルを
\theta(f) := (vec(W_1)',\mathbf{b}'_1,\dots,vec(W_{L+1})',\mathbf{b}'_{L+1})'
とします.$vec(W)$ は行列 $W$ の成分を縦にならべて列ベクトルにする変換を表します.またDNN $f$ に対して depth($f$) を$f$の隠れ層の数,width($f$) を最大幅 $\max_{0 \leq \ell \leq L}p_\ell$ とします.更に$d$-次元の入力と$1$ 次元の出力をもつ DNN の集合を $\mathcal{F}_{\sigma, d,1}$ と書くことにします.以上の記号の下で,この記事で考えるDNNの集合を以下のように定義します:
\begin{align*}
\mathcal{F}_\sigma(L,N,B,F)&:= \{f\mathbf{1}_{[0,1]^d}: f \in \mathcal{F}_{\sigma,d,1}, \text{depth}(f)\leq L, \\
&\quad \quad \quad \text{width}(f)\leq N, \|\theta(f)\|_{\infty} \leq B, \|f\|_{\infty} \leq F\}\\
\mathcal{F}_\sigma(L,N,B,F,S) &:= \{f \in \mathcal{F}_{\sigma}(L,N,B,F): \|\theta(f)\|_0 \leq S\}.
\end{align*}
ここで $x \in \mathbb{R}^p$ に対して $\|x\|_{\infty}=\max_{1 \leq j \leq p}|x_j|$,$\|x\|_0=\sum_{j=1}^p \mathbf{1}_{\{x_j \neq 0\}}$,$\|f\|_{\infty} = \sup_{x \in [0,1]^{d}}|f(x)|$ とします.
$\mathcal{F}_{\sigma}(L,N,B,F,S)$ において $S$ はスパースレベルと呼ばれ,$\mathcal{F}_{\sigma}(L,N,B,F)$ において非ゼロパラメータ数に関して制約を課したDNNのクラスなのでスパース制約DNNと呼ぶことにします.
スパース制約DNN推定量
以下ではノンパラメトリック時系列回帰モデルの回帰関数 $f_0$ の DNN 推定量として,Ohn and Kim(2022) で研究されているスパース制約DNN推定量を考えます:
\begin{align*}
\hat{f}_{n,sp} &\in \text{argmin}_{f \in \mathcal{F}_{\sigma}(L,N,B,F)}\left({1 \over n}\sum_{i=1}^{n}(Y_i - f(X_i))^2 + J_n(f)\right).
\end{align*}
ここで,$J_n(f) = \lambda_n\|\theta(f)\|_{\text{clip},\tau_n}$,$\lambda_n>0$,また $\theta \in \mathbb{R}^p$ に対して
\|\theta\|_{\text{clip},\tau} := \sum_{j=1}^p\left({|\theta_j| \over \tau} \wedge 1\right), \tau>0
です.上記の推定量において,$\hat{f}_{n,sp}$ をスパース制約DNN推定量と呼ぶことにします.$\hat{f}_{n,sp}$ を含む $f_0$ の一般の推定量のパフォーマンスを測る指標としては以下の汎化誤差 (or 予測誤差)を考えます:
R(\hat{f},f_0) := E\left[{1 \over n}\sum_{i=1}^{n}(\hat{f}(X_i^{\ast}) - f_0(X_i^{\ast}))^2\right].
ここで,$\{X_1^{\ast},\dots,X_n^{\ast}\}$ は $\{X_1,\dots, X_n\}$と独立かつ同じ分布をもつデータです.
スパース制約DNN推定量の汎化誤差バウンド
$\mathcal{F} = \mathcal{F}_{\sigma}(L,N,B,F)$,$F \geq 1$ とします.さらに正の定数 ($C_L, C_B, C_N, C_\lambda, \nu_1, \nu_2$) に対して
L \leq C_L\log n,\ N \leq C_N n^{\nu_1},\ 1 \leq B \leq C_B n^{\nu_2},
また $J_n(f)$ のチューニングパラメータ $\lambda_n$,$\tau_n$ は
\lambda_n = C_{\lambda}{\log ^5n \over n},\ (2n)^{-1} > \tau_n(L+1)((N+1)B)^{L+1}
を満たすとします.このとき,$(C_L,C_N,C_B,C_{\lambda},\nu_1,\nu_2,\sigma)$ に依存するある正の定数 $C$ が存在して
R(\hat{f}_{n,sp},f_0) \leq \max\left\{2 \inf_{f \in \mathcal{F}}\left(R(f,f_0) + J_n(f)\right), {C\log^2 n \over n}\right\}.
が成り立ちます.
具体例
$f_0$ が具体的な関数空間に属する場合の汎化誤差のバウンドについてみてみましょう.ここでは Schmidt-Hieber, J. (2020) で考えられている2つの例を紹介します.ここで紹介する例について詳しい定義は前回の記事「ノンパラメトリック回帰モデルの適応的推定(1)」を参照してください.
ヘルダー関数
$f_0$ がヘルダー空間 $\mathcal{H}^{\alpha, R}([0,1]^d)$ に属する場合,$L \sim \log n,\ N \sim n,\ B \geq 1$ とすると,
R(\hat{f}_{n,sp},f_0) \lesssim n^{-{2\alpha \over 2\alpha + d}}\log^6 n
が成り立ちます.
合成型関数 (composition structured functions)
$f_0$ が合成型関数の空間 $\mathcal{G}^{COMP}(q,\mathbf{\alpha},\mathbf{d},\mathbf{t},R)$ に属する場合,$L \sim \log n,\ N \sim n,\ B \geq 1$ とすると,
R(\hat{f}_{n,sp},f_0) \lesssim \max_{1 \leq j\leq q}n^{-{2\alpha_j^{\ast} \over 2\alpha_j^{\ast} + t_j}}\log^6 n
が成り立ちます.
$f_0$ がヘルダー空間,合成型関数の空間に属している場合,$f_0$ の任意の推定量 $\hat{f}$ の理論的に最適な汎化誤差の下限はヘルダー空間,合成型関数の空間でそれぞれ
O\left(n^{-{2\alpha \over 2\alpha + d}}\right),\ O\left(\max_{1 \leq j\leq q}n^{-{2\alpha_j^{\ast} \over 2\alpha_j^{\ast} + t_j}}\right)
であるため (Schmidt-Hieber (2020),Theorem 3),スパース制約DNN推定量は ($\log n$ のべき乗の違いを無視すれば) 理論上最適な推定レートを達成することがわかります.
結果に関する考察
- 前回の記事で既にスパース制約を課さない推定量 $\hat{f}_n$ は $f_0$ の属する関数空間に関して適応的な推定にならない ($f_0$ の滑らかさなどのパラメータに依存してDNNの集合のパラメータ$L,N,B,S$を設定しなければ理論上最適な汎化誤差のレートが達成できない) ことを紹介しました.$f_0$ がどのような関数であるかは事前にはわからないため,DNNのチューニングパラメータの設定においてこのことは実用上の問題となります.
- 一方で,スパース制約DNN推定量の汎化誤差に関する上記の結果から,スパース制約を課した推定量はDNNのチューニングパラメータを $f_0$ の情報を用いることなく設定でき,さらにスパース制約DNN推定量は ($\log n$ のべき乗の違いを無視すれば) Schmidt-Hieber(2020) で議論されている関数空間 (詳しくは前回の記事を参照),さらには Imaizumi and Fukumizu (2019),Suzuki (2019) で議論されている「区分的に滑らかな関数」(piecewise smooth functions) や「ベゾフ空間」に対しても理論上最適な推定レートを達成する (即ち,$f_0$ の属する関数空間に対して適応的な推定を行うことができる) ことを示すことができます.
まとめ
この記事では,深層ニューラルネットワークを用いたノンパラメトリック回帰モデルの推定について,主に Ohn and Kim (2022) の内容に基づき,回帰モデルの適応的推定方法を紹介しました.次回以降ではDNN推定量を時系列データに適用する場合の結果について紹介する予定です.
株式会社Nospareには統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.
参考文献
[1] Imaizumi, M. and Fukumizu, K. (2019) Deep neural networks learn non-smooth functions effectively. In International Conference on Artificial Intelligence and Statistics.
[2] Ohn, I. and Kim, Y. (2022) Nonconvex sparse regularization for deep neural networks and its optimality. Neural Computation 34, 476-517.
[3] Schmidt-Hieber, J. (2020) Nonparametric regression using deep neural networks with ReLU activation function. Annals of Statistics 48, 1875-1897.
[4] Suzuki, T. (2019) Adaptivity of deep ReLU network for learning in Besov and mixed smooth Besov spaces: optimal rate and curse of dimensionality. In International Conference on Learning Representations.