ノンパラメトリック回帰モデルの推定
横浜国立大学/株式会社Nospare リサーチャーの栗栖です.
この記事は前回の記事から引き続き最近の研究成果「ノンパラメトリック時系列回帰モデルに対する適応的深層学習」Kurisu, Fukami and Koike (2025) についての解説と数値実験の結果を紹介します.
ノンパラメトリック時系列回帰モデル
この研究では以下のようなノンパラメトリック時系列回帰モデルを考えます:
Y_t = m(X_t) + \eta(X_t)v_t,\ t=1,\dots, T.
ここで,$m$ はノンパラメトリック回帰モデルにおける回帰関数,$\eta^2$ は 分散関数,$\eta(X_t)v_t$ は観測誤差に対応します.
以上のモデルに従うデータ $(Y_t,X_t) \in \mathbb{R} \times \mathbb{R}^d$,$t=1,\dots,T$ が観測されるとします.特にこの研究ではデータを用いて回帰関数 $m$ の $[0,1]^d$ 上での値の推定 (即ち,$f_0 := m\mathbf{1}_{[0,1]^d}$) の推定を考えます.
深層ニューラルネットワーク
この研究で考える深層ニューラルネットワーク (deep neural network, DNN) について説明しておきます.
$L \in \mathbb{N}$ を隠れ層の数 (or DNNの深さ),$\mathbf{p}=(d,p_1,\dots,p_{L},1)\in \mathbb{N}^{L+2}$ をDNNの幅パラメータとします.またDNNの活性化関数を$\sigma:\mathbb{R} \to \mathbb{R}$ とします.活性化関数が $\sigma$ でネットワーク構造 $(L,\mathbf{p})$ をもつDNN $f:\mathbb{R}^{d} \to \mathbb{R}$ は以下で定義されます.
f(x) = A_{L+1} \circ \sigma_L \circ A_L \circ \sigma_{L-1} \circ \cdots \sigma_1 \circ A_1(x) .
ここで,$A_{\ell}:\mathbb{R}^{p_{\ell-1}} \to \mathbb{R}^{p_\ell}$ は $A_{\ell}(x) = W_{\ell}x + \mathbf{b}_\ell$で 表される線形変換です.$A_{\ell}$ の表現に出てくる $W_\ell$ は $p_{\ell-1}\times p_\ell$の重み行列で,$\mathbf{b}_{\ell} \in \mathbb{R}^{p_\ell}$ はシフトベクトル,$\sigma_\ell:\mathbb{R}^{p_\ell} \to \mathbb{R}^{p_\ell}$ は成分ごとに活性化関数を並べたもの $\sigma_\ell=(\sigma(z_1),\dots,\sigma(z_{p_\ell}))'$ です.活性化関数のクラスとしては $C$-Lipschitz なものを考えます.
さらにDNN $f$ に対して,そのパラメータをまとめたベクトルを
\theta(f) := (vec(W_1)',\mathbf{b}'_1,\dots,vec(W_{L+1})',\mathbf{b}'_{L+1})'
とします.$vec(W)$ は行列 $W$ の成分を縦にならべて列ベクトルにする変換を表します.またDNN $f$ に対して depth($f$) を$f$の隠れ層の数,width($f$) を最大幅 $\max_{0 \leq \ell \leq L}p_\ell$ とします.更に$d$-次元の入力と$1$ 次元の出力をもち,活性化関数 $\sigma$ をもつ DNN の集合を $\mathcal{F}_{\sigma, d,1}$ と書くことにします.以上の記号の下で,本研究で考えるDNNの集合を以下のように定義します:
\begin{align*}
\mathcal{F}_\sigma(L,N,B,F)&:= \{f\mathbf{1}_{[0,1]^d}: f \in \mathcal{F}_{\sigma,d,1}, \text{depth}(f)\leq L, \\
&\quad \quad \quad \text{width}(f)\leq N, \|\theta(f)\|_{\infty} \leq B, \|f\|_{\infty} \leq F\}\\
\mathcal{F}_\sigma(L,N,B,F,S) &:= \{f \in \mathcal{F}_{\sigma}(L,N,B,F): \|\theta(f)\|_0 \leq S\}.
\end{align*}
ここで $x \in \mathbb{R}^p$ に対して $\|x\|_{\infty}=\max_{1 \leq j \leq p}|x_j|$,$\|x\|_0=\sum_{j=1}^p \mathbf{1}_{\{x_j \neq 0\}}$,$\|f\|_{\infty} = \sup_{x \in [0,1]^{d}}|f(x)|$ とします.
DNN推定量
本研究ではノンパラメトリック時系列回帰モデルの回帰関数 $f_0 = m\mathbf{1}_{[0,1]^d}$ の DNN 推定量として,以下の2種類の推定量を考えます:
\begin{align*}
\hat{f}_{T,np} &\in \text{argmin}_{f \in \mathcal{F}_{\sigma}(L,N,B,F,S)}\left({1 \over T}\sum_{t=1}^{T}(Y_t - f(X_t))^2\right).\\
\hat{f}_{T,sp} &\in \text{argmin}_{f \in \mathcal{F}_{\sigma}(L,N,B,F)}\left({1 \over T}\sum_{t=1}^{T}(Y_t - f(X_t))^2 + J_T(f)\right).
\end{align*}
ここで,$J_T(f) = \lambda_T\|\theta(f)\|_{\text{clip},\tau_T}$,$\lambda_T>0$,また $\theta \in \mathbb{R}^p$ に対して
\|\theta\|_{\text{clip},\tau} := \sum_{j=1}^p\left({|\theta_j| \over \tau} \wedge 1\right), \tau>0
です.上記の2種類の推定量において,$\hat{f}_{T,np}$ を非制約DNN(NPDNN)推定量,$\hat{f}_{T,sp}$ をスパース制約DNN(SPDNN)推定量と呼ぶことにします.各推定量のパフォーマンスを測る指標としては以下の汎化誤差 (or 予測誤差)を考えます:$\hat{f} \in \{\hat{f}_{T,np}, \hat{f}_{T,sp}\}$ として
R(\hat{f},f_0) := E\left[{1 \over T}\sum_{t=1}^{T}(\hat{f}(X_t^{\ast}) - f_0(X_t^{\ast}))^2\right].
ここで,$\{X_1^{\ast},\dots,X_T^{\ast}\}$ は $\{X_1,\dots, X_T\}$と独立かつ同じ分布をもつデータです.
数値実験
以下では数値実験を通していくつかのARモデルの回帰関数の推定精度について見ていきましょう.今回の数値実験では $T = 400$ とし,$\{v_t\}_{t=1}^{T}$ を i.i.d. で標準正規分布に従う確率変数とします.
モデル
$\text{EXPAR}$: $Y_{t} = a_1(Y_{t-1})Y_{t-1} + a_2(Y_{t-1})Y_{t-2} + v_t$,
\begin{align*}
a_1(y) &= 0.138 + (0.316+0.982y)e^{-3.89y^2},\\
a_2(y) &= -0.437 - (0.659+1.260y)e^{-3.89y^2}.
\end{align*}
$\text{TAR}$: $Y_{t} = b_1(Y_{t-1})Y_{t-1} + b_2(Y_{t-1})Y_{t-2} + v_t$,
\begin{align*}
b_1(y) &= 0.4 \cdot 1_{(-\infty,1]}(y) - 0.8 \cdot 1_{(1,\infty)}(y),\\
b_2(y) &= -0.6 \cdot 1_{(-\infty,1]}(y) + 0.2 \cdot 1_{(1,\infty)}(y).
\end{align*}
$\text{FAR}$: $Y_t = -Y_{t-2}\exp(-Y_{t-2}^2/2) + {1 \over 1+ Y_{t-2}^2}\cos(1.5 Y_{t-2})Y_{t-1} + 0.5v_t$.
$\text{AAR}$: $Y_t = 4{Y_{t-1} \over 1+ 0.8Y_{t-1}^2} + {\exp(3(Y_{t-2}-2)) \over 1 + \exp(3(Y_{t-2}-2))} + v_t$.
$\text{SIM}$: $Y_t = \exp(-8Z_t^2) + 0.5\sin(2\pi Z_t)Y_{t-1} + 0.1v_t$, $Z_t = 0.8Y_{t-1} + 0.6Y_{t-2}-0.6$.
$\text{SIM}_v$: $v \in \{0.5, 1.0, 5.0\}$,
\begin{align*}
Y_t &= \{\Phi(-vZ_t) - 0.5\}Y_{t-1} + \{\Phi(2vZ_t) - 0.6\}Y_{t-2} + v_t,\\
Z_t &= Y_{t-1} + Y_{t-2} - Y_{t-3} - Y_{t-4},
\end{align*}
ここで $\Phi$ は標準正規分布の分布関数です.
数値実験の結果
以下の図(boxplot)は上記の8個のモデルの回帰関数 $m$ を
- カーネルリッジ回帰 (kernel ridge regression, KRR)
- $k$-近傍法 ($k$-nearlest neighbors, KNN)
- ランダムフォレスト (random forest, RF)
- 非制約DNN (NPDNN)
- スパース制約DNN (SPDNN)
で推定し,それぞれの推定量の経験2乗誤差を新しく生成した $10^5$ 個のデータを用いて独立に500回計算してプロットしたものです.各手法の詳しい実装方法については Kurisu, Fukami and Koike (2025) を参照してください.
結果に関する考察
- 全てのモデルにおいて NPDNN, SPDNN は KNN, RF よりパフォーマンスが良いことがわかります.
- FAR (特にDNNが他の手法を優越する保証がないモデル)を除き,NPDNN, SPDNN は KRR と同等以上のパフォーマンスを示すことがわかります.
- $\text{AAR}$, $\text{SIM}$, $\text{SIM}_{0}$ の場合
(合成型関数,モデルが低次元性をもつケース)では NPDNN, SPDNN は比較的 KRR よりもパフォーマンスが良く, - $\text{TAR}$, $\text{SIM}_1$, $\text{SIM}_5$ の場合
(回帰関数が不連続 or あまり滑らかでないケース)では NPDNN, SPDNN は KRR よりもパフォーマンスが良いことがわかります. - 以上の結果はこれまで「ノンパラメトリック回帰モデルの適応的推定(3)【研究紹介1】」,「ノンパラメトリック回帰モデルの適応的推定(4)【研究紹介2】」で紹介してきた理論的結果と整合的になっています.
まとめ
この記事では,Kurisu, Fukami and Koike (2025) で提案した, 深層ニューラルネットワークを用いたノンパラメトリック時系列回帰モデルの適応的推定について紹介しました.株式会社Nospareには統計的機械学習や時系列解析に限らず,統計学の様々な分野を専門とする研究者が所属しています.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.
参考文献
[1] Kurisu, D., Fukami, R. and Koike, Y. (2025) Adaptive deep learning for nonparametric time series regression. Bernoulli 31, 240-270.