ノンパラメトリック回帰モデルの推定
横浜国立大学/株式会社Nospare リサーチャーの栗栖です.
この記事は前回に引き続き最近の研究成果「ノンパラメトリック時系列回帰モデルに対する適応的深層学習」Kurisu, Fukami and Koike (2025) についての解説記事です.
ノンパラメトリック時系列回帰モデル
ここでは以下のようなノンパラメトリック時系列回帰モデルを考えます:
\begin{align}
\begin{cases}
Y_t = m(Y_{t-1},\dots,Y_{t-d}) + v_t, & t=1,\dots, T, \tag{1}\\
(Y_0,Y_{-1},\dots,Y_{d+1})' \sim \nu,\\
\nu_t \stackrel{i.i.d.}{\sim} N(0,1).
\end{cases}
\end{align}
ここで,$m$ はノンパラメトリック回帰モデルにおける回帰関数,$\nu$ は $\mathbb{R}^d$ 上の確率測度で $\int_{\mathbb{R}^d}|x|\nu(dx)$ を満たすとします.さらに
\begin{align*}
\mathcal{M}_0(\mathbf{c}) &= \left\{m: |m(x)|\leq c_0 + \sum_{i=1}^{d}c_i|x_i|, x \in \mathbb{R}^d, \right.\\
&\left. \qquad \qquad \mathbf{c} = (c_0,\dots,c_d)' \in (0,\infty)^{d+1},\ \sum_{i=1}^{d}c_i<1 \right\}
\end{align*}
とし,$m \in \mathcal{M}_0(\mathbf{c})$ であるとします.
深層ニューラルネットワーク
この研究で考える深層ニューラルネットワーク (deep neural network, DNN) について説明しておきます.
$L \in \mathbb{N}$ を隠れ層の数 (or DNNの深さ),$\mathbf{p}=(d,p_1,\dots,p_{L},1)\in \mathbb{N}^{L+2}$ をDNNの幅パラメータとします.またDNNの活性化関数を$\sigma:\mathbb{R} \to \mathbb{R}$ とします.活性化関数が $\sigma$ でネットワーク構造 $(L,\mathbf{p})$ をもつDNN $f:\mathbb{R}^{d} \to \mathbb{R}$ は以下で定義されます.
f(x) = A_{L+1} \circ \sigma_L \circ A_L \circ \sigma_{L-1} \circ \cdots \sigma_1 \circ A_1(x) .
ここで,$A_{\ell}:\mathbb{R}^{p_{\ell-1}} \to \mathbb{R}^{p_\ell}$ は $A_{\ell}(x) = W_{\ell}x + \mathbf{b}_\ell$で 表される線形変換です.$A_{\ell}$ の表現に出てくる $W_\ell$ は $p_{\ell-1}\times p_\ell$の重み行列で,$\mathbf{b}_{\ell} \in \mathbb{R}^{p_\ell}$ はシフトベクトル,$\sigma_\ell:\mathbb{R}^{p_\ell} \to \mathbb{R}^{p_\ell}$ は成分ごとに活性化関数を並べたもの $\sigma_\ell=(\sigma(z_1),\dots,\sigma(z_{p_\ell}))'$ です.活性化関数のクラスとしては $C$-Lipschitz なものを考えます.
さらにDNN $f$ に対して,そのパラメータをまとめたベクトルを
\theta(f) := (vec(W_1)',\mathbf{b}'_1,\dots,vec(W_{L+1})',\mathbf{b}'_{L+1})'
とします.$vec(W)$ は行列 $W$ の成分を縦にならべて列ベクトルにする変換を表します.またDNN $f$ に対して depth($f$) を$f$の隠れ層の数,width($f$) を最大幅 $\max_{0 \leq \ell \leq L}p_\ell$ とします.更に$d$-次元の入力と$1$ 次元の出力をもち,活性化関数 $\sigma$ をもつ DNN の集合を $\mathcal{F}_{\sigma, d,1}$ と書くことにします.以上の記号の下で,本研究で考えるDNNの集合を以下のように定義します:
\begin{align*}
\mathcal{F}_\sigma(L,N,B,F)&:= \{f\mathbf{1}_{[0,1]^d}: f \in \mathcal{F}_{\sigma,d,1}, \text{depth}(f)\leq L, \\
&\quad \quad \quad \text{width}(f)\leq N, \|\theta(f)\|_{\infty} \leq B, \|f\|_{\infty} \leq F\}\\
\mathcal{F}_\sigma(L,N,B,F,S) &:= \{f \in \mathcal{F}_{\sigma}(L,N,B,F): \|\theta(f)\|_0 \leq S\}.
\end{align*}
ここで $x \in \mathbb{R}^p$ に対して $\|x\|_{\infty}=\max_{1 \leq j \leq p}|x_j|$,$\|x\|_0=\sum_{j=1}^p \mathbf{1}_{\{x_j \neq 0\}}$,$\|f\|_{\infty} = \sup_{x \in [0,1]^{d}}|f(x)|$ とします.
SPDNN推定量
本研究ではノンパラメトリック時系列回帰モデルの回帰関数 $f_0 = m\mathbf{1}_{[0,1]^d}$ の DNN 推定量として,Ohn and Kim(2022) の議論参考にして以下の推定量を考えます:
\begin{align*}
\hat{f}_{T,sp} &\in \text{argmin}_{f \in \mathcal{F}_{\sigma}(L,N,B,F)}\left({1 \over T}\sum_{t=1}^{T}(Y_t - f(X_t))^2 + J_T(f)\right).
\end{align*}
ここで,$J_T(f) = \lambda_T\|\theta(f)\|_{\text{clip},\tau_T}$,$\lambda_T>0$,また $\theta \in \mathbb{R}^p$ に対して
\|\theta\|_{\text{clip},\tau} := \sum_{j=1}^p\left({|\theta_j| \over \tau} \wedge 1\right), \tau>0
です.$\hat{f}_{T,sp}$ をスパース制約DNN(SPDNN)推定量と呼ぶことにします.各推定量のパフォーマンスを測る指標としては以下の汎化誤差 (or 予測誤差)を考えます:$\hat{f}=\hat{f}_{T,sp}$ として
R(\hat{f},f_0) := E\left[{1 \over T}\sum_{t=1}^{T}(\hat{f}(X_t^{\ast}) - f_0(X_t^{\ast}))^2\right].
ここで,$\{X_1^{\ast},\dots,X_T^{\ast}\}$ は $\{X_1,\dots, X_T\}$と独立かつ同じ分布をもつデータです.
SPDNN推定量の最適性
以下では回帰関数 $m$ が (1) 合成型関数 (composition structured functions), (2) 有界アフィンクラス ($\ell^0$-bounded affine class) に属する場合にSPDNN推定量が(ほぼ)最適な推定レートを達成することを見てみましょう.
合成型関数(composition structured functions)
ヘルダー関数
滑らかさ $\alpha>0$ で半径 $R>0$ のヘルダー空間は以下で定義されます:
\mathcal{H}^{\alpha, R}([0,1]^d) := \left\{f:[0,1]^d \to \mathbb{R}:\|f\|_{\mathcal{H}^{\alpha}([0,1]^d)} \leq R\right\}.
ここで,$\|\cdot\|_{\mathcal{H}^{\alpha}([0,1]^d)}$ は以下で定義されるヘルダーノルムです.
\begin{align*}
\|f\|_{\mathcal{H}^{\alpha}([0,1]^d)} &:= \sum_{m \in \mathbb{N}^{d}:\|m\|_1 \leq \lfloor \alpha \rfloor} \|\partial^m f\|_{\infty}\\
&\quad + \sum_{m \in \mathbb{N}^d: \|m\|_1 = \lfloor \alpha \rfloor} \sup_{x_1, x_2 \in [0,1]^d, x_1 \neq x_2}{|\partial^m f(x_1) - \partial^m f(x_2)| \over |x_1 - x_2|^{\alpha - \lfloor \alpha \rfloor}}.
\end{align*}
ただし,$m=(m_1,\dots,m_d) \in \mathbb{N}^d$ に対して $\|m\|_1 = \sum_{i=1}^{d}|m_i|$ です.
合成型関数
パラメータ $q \in \mathbb{N}$,$\mathbf{\alpha} \in (\alpha_1,\dots,\alpha_q)' \in \mathbb{R}^q$,$\mathbf{d}=(d_1,\dots,d_{q+1})' \in \mathbb{N}^{q+1}$ ($d_1=d$,$d_{q+1}=1$),$\mathbf{t}=(t_1,\dots,t_q) \in \prod_{j=1}^{q+1}\{1,\dots,d_j\}$,$R>0$ をもつ合成型関数の集合を
\begin{align*}
\mathcal{G}^{COMP}(q,\mathbf{\alpha},\mathbf{d},\mathbf{t},R) := \{f=g_q \circ \dots \circ g_1 &: g_j = (g_{j,k})_{1 \leq k\leq d_{j+1}}:[a_j,b_j]^d_j \to [a_{j+1},b_{j+1}]^{d_{j+1}},\\
&\quad g_{j,k}\in \mathcal{H}^{a_j,R}([a_j,b_j]^{t_j}), |a_j| \vee |b_j| \leq R\}
\end{align*}
で定めます.
例(Single index model)
以下のモデルを考えます:
\begin{align*}
Y_t &= \phi_0(Z_t) + \phi_1(Z_t)Y_{t-1} + \cdots + \phi_d(Z_t)Y_{t-d} + v_t,\\
Z_t &= b_0 + b_1Y_{t-1} + \cdots + b_d Y_{t-d}.
\end{align*}
上記のモデルにおいて,
\begin{align*}
m &= g_2 \circ g_1 \circ g_0\\
g_2(w_0,w_1,\dots,w_d,x_1,\dots,x_d) &= w_0 + w_1x_1 + \dots +w_dx_d,\\
g_1(z,x_1,\dots,x_d) &= (\phi_0(z),\dots,\phi_d(z),x_1,\dots,x_d)',\\
g_0(x_1,\dots,x_d) &= (b_0 + b_1x_1 + \dots + b_dx_d, x_1, \dots, x_d)'
\end{align*}
と表現できるので合成型関数の1例となっています.
合成型関数 $\mathcal{G}^{COMP}(q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ その他の具体例については「ノンパラメトリック回帰モデルの適応的推定(1)」を参照してください.$f_0:=m1_{[0,1]^d} \in \mathcal{G}^{COMP}(q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ のとき
\phi_n = \max_{1 \leq j\leq q}n^{-{2\alpha_j^{\ast} \over 2\alpha_j^{\ast} + t_j}}
とします.また $\mathcal{M}_0(\mathbf{c})$ を $[0,1]^d$ 上に制約したものが $\mathcal{G}^{COMP}(q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ に属する関数のクラスを $\mathcal{M}(\mathbf{c},q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ とします.
ミニマックスレート
時系列モデル(1)の下で,$m \in \mathcal{M}(\mathbf{c},q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ とします.このとき,適当な条件の下で
\inf_{\hat{f}_T}\sup_{m \in \mathcal{M}(\mathbf{c},q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)} R(\hat{f}_T, f_0) \gtrsim \phi_T,\ T \to \infty
が成り立つことがわかります.ここで $\inf_{\hat{f}_T}$ は $f_0$ の任意の推定量に関して下限をとっています.上記の結果より,$m \in \mathcal{M}(\mathbf{c},q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ の場合の最適な推定レートは $O(\phi_T)$ であることがわかります.
SPDNNの最適性
時系列モデル(1)の下で,$m \in \mathcal{M}(\mathbf{c},q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ とします.また $F \geq \max\{1, R\}$ を定数, $T \to \infty$として
\begin{align*}
L_T &\lesssim \log^r T\ (r>1),\ N_T \lesssim T,\ B_T \lesssim T^{\nu_2}\ (\nu_2 >0),\\
\iota_\lambda(T) &\to \infty,\ \lambda_T = (F^2 \log^{3+r}T)/T,\ \tau_T(L_T+1)((N_T+1)B_T)^{L_T+1} \lesssim T^{-1}
\end{align*}
とします.このとき,$\hat{f}_{n,sp} \in \mathcal{F}_{ReLU}(L_T,N_T,B_T,F)$ならば
\sup_{m \in \mathcal{M}(\mathbf{c},q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)} R(\hat{f}_{T,sp}, f_0) = O\left(\phi_T \log^{4+r}T\right),\ T \to \infty
が成り立つことが分かります.上記の結果より,SPDNN推定量は $m \in \mathcal{M}(\mathbf{c},q,\mathbf{\alpha}, \mathbf{d},\mathbf{t},R)$ の場合,$O(\log^{4+r}T)$ の違いを除いて最適な推定レートを達成することがわかります.
合成型関数以外のクラスでもSPDNN推定量は最適な推定レートを達成することがわかります.
有界アフィンクラス
$\mathbb{R}^d$ 上の実数値関数の集合 $\Phi$ で各 $\varphi \in \Phi$ に対して $\int_{\mathbb{R}^d} \varphi^2(x)dx=1$ とする.また $n_s$ を正の整数,$C>0$ とする.このとき,$\ell^0$-bounded affine class $\mathcal{I}_{\Phi}^0$ を以下で定義します:
\begin{align*}
\mathcal{I}_{\Phi}^0 (n_s, C) &= \left\{\sum_{i=1}^{n_s} \theta \varphi_i(A_i \cdot -b_i): A_i \in \mathbb{R}^{d \times d}, b_i \in \mathbb{R}^{d}, \theta_i \in \mathbb{R}, \varphi_i \in \Phi, \right. \\
&\left. \quad \max\{|\text{det}A_i|^{-1}, |A_i|_{\infty}, |b_i|_{\infty}, |\theta_i|\} \leq C_i, i=1,\dots, n_s\right\}.
\end{align*}
$\ell^0$-bounded affine class は Hayakawa and Suzuki(2020) で導入されたクラスです.
さらに $\mathcal{M}_{\Phi}^0(\mathbf{c},n_s, C) := \mathcal{M}_0(\mathbf{c}) \cap \mathcal{I}_{\Phi}^0 (n_s, C)$ とします.
例(Threshold AR(1) model)
以下のモデルを考えます:
\begin{align*}
Y_t &=
\begin{cases}
a_1 Y_{t-1} + v_t & \text{if $Y_{t-1} \leq r$},\\
a_2 Y_{t-1} + v_t & \text{if $Y_{t-1} > r$}.
\end{cases}
\end{align*}
このとき,$m(x)=(a_1 1_{(-\infty, r]}(x) + a_2 1_{(r,\infty)}(x))x$ であり,特に
\begin{align*}
m(x) &= -a_1 \text{ReLU}(r-x) + a_1 r 1_{[0,\infty)}(r-x) + a_2 \text{ReLU}(x-r) + a_1 r 1_{[0,\infty)}(x-r)\\
\text{ReLU}(x) &= \max\{x,0\}
\end{align*}
と書けるので,$m \in \mathcal{I}_{\Phi}^0 (n_s, C)$, $\Phi = \{\sqrt{3}\text{ReLU}, 1_{[0,\infty)}\}$, $n_s \geq 4$, $C \geq \max\{|a_1|,|a_2|,|r|\}$ であることがわかります.
ミニマックスレート
時系列モデル(1)の下で,$m \in \mathcal{M}_{\Phi}^0(\mathbf{c},n_s, C)$ とします.このとき,適当な条件の下で
\inf_{\hat{f}_T}\sup_{m \in \mathcal{M}_{\Phi}^0(\mathbf{c},n\_s, C)} R(\hat{f}_T, f_0) \gtrsim T^{-1},\ T \to \infty.
ここで $\inf_{\hat{f}_T}$ は $f_0$ の任意の推定量に関して下限をとっています.上記の結果より,$m \in \mathcal{M}_{\Phi}^0(\mathbf{c},n_s, C)$ の場合の最適な推定レートは $O(T^{-1})$ であることがわかります.
SPDNNの最適性を述べる前にいくつか記号を導入しておきます.
$C_1,C_2,D>0$, $r \geq 0$ に対して,$AP_{\sigma,d}(C_1,C_2,D,r)$ を以下を満たす関数 $\varphi:\mathbb{R}^d \to \mathbb{R}$ の集合とする:各 $\varepsilon \in (0,1/2)$ に対して,ある $L_{\varepsilon}$, $N_{\varepsilon}$, $B_{\varepsilon}$, $S_{\varepsilon}$ が存在して
- $\max\{L_{\varepsilon}, N_{\varepsilon}, S_{\varepsilon}\} \leq C_1 \{\log_2(1/\varepsilon)\}^r$, $B_{\varepsilon} \leq C_2/\varepsilon$,
- $f \in \mathcal{F}_{\sigma}(L_{\varepsilon}, N_{\varepsilon},B_{\varepsilon})$ が存在して $|\theta(f)|_0 \leq S_{\varepsilon}$ かつ $\int_{[-D,D]^d}(f(x) - \varphi(x))^2dx \leq \varepsilon$.
例えば $\{\text{ReLU}, 1_{[0,\infty)}\} \subset AP_{ReLU,1}(C_1,C_2,D,r)$, $C_1,C_2 \geq 7$, $D \geq 2$, $r \geq 0$ であることがわかります.
$AP_{\sigma,1}(C_1,C_2,D,r)$ に含まれる具体的な関数については Kurisu, Fukami and Koike(2025) で解説しています.
SPDNNの最適性
時系列モデル(1)の下で,$m \in \mathcal{M}_{\Phi}^0(\mathbf{c},n_s, C)$ とします.また $\Phi \subset AP_{ReLU,d}(C_1,C_2,D,r)$, $D \geq (d+1)C$, $F \geq 1+c_0$ を定数とします.さらに $T \to \infty$として
\begin{align}
L_T &\lesssim \log^{r'} T\ (r'>r),\ N_T \lesssim T,\ B_T \lesssim T^{\nu}\ (\nu >1), \iota_\lambda(T) \to \infty\\
\lambda_T &= (F^2 \log^{3+r'}T)/T,\ \tau_T(L_T+1)((N_T+1)B_T)^{L_T+1} \lesssim T^{-1}
\end{align}
とします.このとき,$\hat{f}_{n,sp} \in \mathcal{F}_{ReLU}(L_T,N_T,B_T,F)$ ならば,適当な条件の下で
\sup_{m \in \mathcal{M}_{\Phi}^0(\mathbf{c},n\_s, C)} R(\hat{f}_{T,sp}, f_0) = O\left({\log^{3+r+r'}T \over T}\right),\ T \to \infty
が成り立つことが分かります.上記の結果より,SPDNN推定量は $m \in \mathcal{M}_{\Phi}^0(\mathbf{c},n_s, C)$の場合,$O(\log^{3+r+r'}T)$ の違いを除いて最適な推定レートを達成することがわかります.
結果に関するコメント
- 合成型関数,有界アフィンクラスは加法的AR(d)モデル,一般化加法的AR(d)モデル,multi-/single-index AR(d)モデル,(multi-regime) threshold AR(d)モデルなど,時系列データ分析でよく利用されるAR(d)モデルを多く含みます.ここで紹介した結果が適用可能なARモデルの例について詳しくは Kurisu, Fukami and Koike(2025) を参照してください.
- 有界アフィンクラスではSPDNNの収束レートはほぼパラメトリックレート ($O(T^{-1})$) であることがわかります.
- 上記の結果はSchmidt-Hieber (2020),Ohn and Kim(2022)の結果を時系列モデルに拡張した結果となっています.
まとめ
この記事では,Kurisu, Fukami and Koike (2025) で提案した, 深層ニューラルネットワークを用いたノンパラメトリック時系列回帰モデルの適応的推定について紹介しました.株式会社Nospareには統計的機械学習や時系列解析に限らず,統計学の様々な分野を専門とする研究者が所属しています.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.
参考文献
[1] Hayakawa, S. and Suzuki, T. (2020) On the minimax optimality and superiority of deep neural network learning over sparse parameter spaces. Neural Networks 123, 343-361.
[2] Kurisu, D., Fukami, R. and Koike, Y. (2025) Adaptive deep learning for nonparametric time series regression. Bernoulli 31, 240-270.
[3] Ohn, I. and Kim, Y. (2022) Nonconvex sparse regularization for deep neural networks and its optimality. Neural Computation 34, 476-517.
[4] Schmidt-Hieber, J. (2020) Nonparametric regression using deep neural networks with ReLU activation function. Annals of Statistics 48, 1875-1897.