データの端に興味があるときの分位点回帰
東京工業大学/株式会社Nospare リサーチャーの栗栖です.
この記事では最近の研究成果「データの端に興味がある場合のノンパラメトリック分位点回帰」(Kurisu and Otsu(2020)) について紹介します.この研究では,ノンパラメトリック分位点回帰の枠組みを極値統計学の手法と組み合わせて拡張してノンパラメトリック極値分位点回帰を提案し,その統計手法の理論的性質を調べました.通常の分位点回帰では分位点レベル $\alpha \in (0,1)$ は固定して分析を行いますが,この方法では $\alpha$ が $0$ または $1$ に近い場合の分析に興味がある場合に分位点回帰の推定精度が悪くなってしまうという問題があります.この問題の解決策の一つとして,この論文では $\alpha$ をデータ数 $n$ に依存させて $\alpha_{n} \to 0$ または $\alpha_{n} \to 1$ とする"極値分位点" という考え方を用いることで推定精度を向上させる方法を提案しました.
・極値統計学については「日本語で学べる極値統計の本の紹介記事」も書いていますのでぜひそちらも参考にしていただければ幸いです.
・通常の分位点回帰についてまず知りたい方は千葉大学・株式会社Nospare リサーチャーの小林先生の記事「[R] quantreg パッケージで分位点回帰してみる」 も参考にしてください.
・またこの記事には続編があります(「データの端に興味があるときの分位点回帰(データ分析編)」).
線形分位点回帰
確率変数 $(Y,X) \in \mathbb{R} \times \mathbb{R}^{d}$ に対し, $X = x$ の時の $Y$ の条件付分布関数を $F_{Y}(y|x)$ とします.
分位点回帰では,データ $(Y_{1},X_{1}),\cdots, (Y_{n}, X_{n}) \in \mathbb{R} \times \mathbb{R}^{d}$ が与えられたときに,これらを使って $Y$ の条件付分位点
\theta_{\alpha}(x) = \inf_{y \in \mathbb{R}}\{y: F_{Y}(y|x) > \alpha\},\ \alpha \in (0,1):\ \text{固定}
を推定する問題を考えます.
特に $\theta_{\alpha}(x)$ が $x = (x_{1},\cdots,x_{d})' \in \mathbb{R}^{d}$ に関して線形の関係,すなわち
\begin{align}
\theta_{\alpha}(x) &= \beta_{1}^{(\alpha)}x_{1} + \cdots + \beta_{d}^{(\alpha)}x_{d},\\
&= x'{\beta^{(\alpha)}}\\
\beta^{(\alpha)} &= (\beta_{1}^{(\alpha)},\cdots, \beta_{d}^{(\alpha)})' \in \mathbb{R}^{d}
\end{align}
と表される場合は線形分位点回帰といい,$\rho_{\alpha}(v) = (\alpha - \mathbb{I}\{v \leq 0\})v$ として以下の最適化問題を解くことで $\beta^{(\alpha)}$ の推定量 $\hat{\beta}_{n}^{(\alpha)}$ が得られることが知られています.
\hat{\beta}_{n}^{(\alpha)} = \arg\min_{\beta \in \mathbb{R}^{d}}\sum_{j=1}^{n}\rho_{\alpha}\left(Y_{j} - X'_{j}\beta\right) \tag{1}
さらに適当な条件の下で $\hat{\beta}_{n}^{(\alpha)}$ は一致性, 漸近正規性を持つことも示すことができます.
線形極値分位点回帰
ここまでの議論では分位点のレベル $\alpha \in (0,1)$ は固定された値の下での話でした.一方で,分位点回帰では $\alpha$ があまり極端な値ではない場合,つまり $\alpha$ があまり $0$ または $1$ に近くない場合 ($0.1 \leq \alpha \leq 0.9 $ くらい)では $\beta^{(\alpha)}$ をうまく推定することができますが,$\alpha \leq 0.01$ あるいは $0.99 \leq \alpha$ といった場合では漸近正規性に基づく議論がうまく機能せず推定精度がかなり悪くなってしまうことが知られています (この点に関してはこちらの記事でも R を使った分析結果とともに紹介されています).そこで$\alpha$ が $0$ または $1$ に近い場合における$\beta^{(\alpha)}$ の推定精度の向上のために,$\alpha$ 自身もデータ数 $n$ に依存させて $\alpha_{n} \to 0$ or $\alpha_{n} \to 1$ とする枠組みで上記の $\hat{\beta}^{(\alpha)}$ の性質を調べる方法が極値分位点回帰 (Chernozhukov(2005), Chernozhukov and Felnandez-Val(2011))です.
通常の分位点回帰がうまく機能しないのは,データ数 $n$ に対して推定したい分位点のレベル $\alpha$ が小さい($0$ に近い),あるいは大きい($1$ に近い) ことが原因の一つです.極値分位点回帰の枠組みでは $n$ に依存して $\alpha$ も変化させることで $n$ に対して $\alpha$ を極端な値を設定しても,通常の分位点回帰に比べて推定精度の向上させることが可能になります.
極値分位点回帰においても通常の場合と同じ推定量 $\hat{\beta}^{(\alpha_{n})}_{n}$ を考え,適当な条件の下で一致性と漸近分布の導出が可能です.通常の分位点回帰と異なり,$\hat{\beta}^{(\alpha_{n})}_{n}$ の漸近分布は正規分布にはならず,複雑な分布になるため,$\hat{\beta}^{(\alpha_{n})}_{n}$ の信頼区間の構成には後で紹介するサブサンプリング法と呼ばれる方法を利用します.
ノンパラメトリック分位点回帰
線形分位点回帰の枠組みをより一般に非線形な場合に拡張した方法がノンパラメトリック分位点回帰です.この方法では $\theta_{\alpha}(x)$ が $x$ に関して非線形な関数である場合を想定して,$\theta_{\alpha}(x)$ の $x=x_{0}=(x_{0,1},\dots,x_{0,d})'\in\mathbb{R}^{d}$ における値やその微分係数を推定することを考えます.ここでは特別な場合として局所線型回帰分位点回帰を考えます.形式的には以下の最適化問題を解くことを考えます:
\hat{\beta}_{n}^{(\alpha)} = \arg\min_{\beta \in \mathbb{R}^{d+1}}\sum_{j=1}^{n}K\left({X_{j} - x_{0} \over \delta_{n}}\right)\rho_{\alpha}\left(Y_{j} - X_{j}(x_{0},\delta_{n})'\beta\right) \tag{2}
ここで,$K: \mathbb{R}^{d} \to \mathbb{R}$ はカーネル関数,$x(x_{0},\delta_{n}) = (1,(x_{1}-x_{0,1})/\delta_n,\dots,(x_{d}-x_{0,d})/\delta_n)'$,$\beta = (\beta_{0},\dots,\beta_{d})'$ です.
イメージとしては,$x(x_{0},\delta_{n})'\beta$ は $X = x_{0}$ の時の $Y$ の条件付分位点 $\theta_{\alpha}(x)$ のテイラー展開です:
\begin{align}
\theta_{\alpha}(x) &= \theta_{\alpha}(x_{0})+\sum_{u=1}^d {\partial\theta_{\alpha}(x_{0}) \over \partial x_{u}}(x_{u} - x_{0,u}) + (\text{近似誤差}) \\
&= \theta_{\alpha}(x_{0})+\sum_{u=1}^{d}\beta_{n,u}^{(\alpha)}\left({x_{u} - x_{0,u} \over \delta_{n}}\right) + (\text{近似誤差}) \\
&= x(x_{0},\delta_{n})'\beta_{n}^{(\alpha)} + (\text{近似誤差})
\end{align}
式変形の途中で $\beta_{n}^{(\alpha)} = (\beta_{n,0}^{(\alpha)},\dots,\beta_{n,d}^{(\alpha)})'$,$\beta_{n,0}^{(\alpha)} = \theta_{\alpha}(x_{0})$,$\beta_{n,u}^{(\alpha)} = \delta_{n}\partial\theta_{\alpha}(x_{0})/\partial x_u$ と置き換えました.
よって $(2)$ 式は上記のテイラー展開の係数を推定していることに対応します.
さらに,カーネル関数 $K$ を導入して $X = x_{0}$ の周りで $\theta_{\alpha}(x)$ を局所的に線形近似しているという点で,線形分位点回帰 $(1)$ の自然な拡張になっています.
$a \in (0,1)$ を固定すると,線形分位点回帰の時と同様に,適当な条件の下で $\hat{\beta}_{n}^{(\alpha)}$ の一致性と漸近正規性が示せます(Chaudhuri(1991)).
ノンパラメトリック極値分位点回帰
線形分位点回帰の場合と同様に,データ数 $n$ に依存させて分位点のレベル $\alpha$ を $0$ または $1$ に近づける枠組みで考えるときは,$(2)$ はノンパラメトリック極値分位点回帰と呼ばれます.
特に $\beta_{n,0}^{(\alpha_{n})} = \theta_{\alpha_{n}}(x_{0})$ の推定を考えてみます.通常のノンパラメトリック分位点回帰では $\sqrt{n\delta_{n}^{d}}(\hat{\beta}^{(\alpha_{n})}_{n,0} - \beta_{n,0}^{(\alpha_{n})})$ の漸近分布は正規分布になりますが,極値分位点回帰ではそうならず,$\hat{\beta}^{(\alpha_{n})}_{n,0} - \beta_{n,0}^{(\alpha_{n})}$ の収束レートも正確には求められません.ただし,推定量の理論的な性質が何もわからないわけではなく,
(1) 適当な数列 $r_{n}$ ($n\to \infty$) に対して $r_{n}(\hat{\beta}^{(\alpha_{n})}_{n,0} - \beta_{n,0}^{(\alpha_{n})})$ はある分布に収束し,
(2) $r_{n}$ に代わる $\hat{r}_{n}$ をデータから構成でき,$\hat{r}_{n}(\hat{\beta}^{(\alpha_{n})}_{n,0} - \beta_{n,0}^{(\alpha_{n})})$ が別のある分布1に収束することから,サブサンプリング法を用いて $\hat{\beta}^{(\alpha_{n})}_{n,0}$ の信頼区間が構成できます.
サブサンプリング
ここでは $\alpha$ が $0$ に近い場合を考えてみます.
この場合,$\theta_{\alpha_{n}}(x_{0})$ の $100(1-\tau)$% 信頼区間を構成するアルゴリズムは以下の通りです:
(Step1) データ $(Y_{1},X_{1}),\cdots, (Y_{n},X_{n})$ から $\hat{\beta}_{n,0}^{(\alpha_{n})} = \hat{\theta}_{\alpha_{n}}(x_{0})$, $\hat{r}_{n}$ を計算.
(Step 2) データを長さが $b$ の$B_{n} = n-b+1$ 個のブロック に分割:
$\{(Y_{1},X_{1}),\cdots,(Y_{b},X_{b})\}$, $\cdots$, $\{(Y_{n-b+1},X_{n-b+1}),\cdots,(Y_{n},X_{n})\}$.
(Step 3) $\alpha_{b}$ を実際に推定したい分位点レベル $\alpha_{n}$ より大きくとり ($\alpha_{n} < \alpha_{b}$), $\alpha = \alpha_{b}$ として $(2)$ を解いて $\hat{\beta}_{n,0}^{(\alpha_{b})}$ を求める ($\hat{\beta}_{n,0}^{(\alpha_{b})}$ の計算には $n$ 個のデータ全て利用する).
(Step 4) 各ブロック毎にその中の $b$ 個のデータを利用して $(2)$ を解いて $\hat{\beta}^{(\alpha_{b})}_{b,0}$ を求める (各ブロックで $\hat{\beta}^{(\alpha_{b})}_{b,0}$ を計算するので $B_{n}$ 個の値が得られる).さらに各ブロックごとに $\hat{r}_{b}$ も計算.
(Step 5) それぞれの $\hat{\beta}^{(\alpha_{b})}_{b,0}$ に対して $T_{n,b} = \hat{r}_{b}(\hat{\beta}^{(\alpha_{b})}_{b,0} - \beta_{n,0}^{(\alpha_{b})})$ を計算し, $T_{n,1},\dots,T_{n,B_{n}}$ の経験分布の $\tau$-分位点 ($\tau \in (0,1)$) を $q_{n}(\tau)$ とすると,$\theta_{\alpha_{n}}(x_{0})$ の $100(1-\tau)$% 信頼区間は
\theta_{\alpha_{n}}(x_{0}) \in [\hat{\theta}_{\alpha_{n}}(x_{0}) - q_{n}(\tau/2)\hat{r}_{n},\hat{\theta}_{\alpha_{n}}(x_{0}) - q_{n}(1-\tau/2)\hat{r}_{n}]
で計算できます.上記の信頼区間の構成方法は $B_{n}$,$b_{n}$ が大きく,$b_{n}/n$ が小さい場合に妥当性が示せます.
他にも...
・$\hat{\theta}_{\alpha_{n}}(x_{0})$ が具体的にどんな分布収束するか?
・$\hat{r}_{n}$ は具体的にはどう計算するのか?
・$b$, $\alpha_{b}$, $\delta_{n}$ はどう取ればいいのか?
などについて詳しいことは論文中で議論しています.また論文中では $\alpha=0.01$,$0.005$ の時における提案手法のパフォーマンスを確認する数値実験も行っています.
応用例
ここまでに解説してきた極値分位点回帰の応用例(分位点レベル $\alpha$ が $0$ または $1$ に近い場合に興味がある例) としては以下のようなものが挙げられます.
[例1] 環境データ:
$\text{PM}_{2.5}$($Y$)と気温($X$)の関係(Yoshida(2020))
[例2] 経済データ:
電力会社の生産高($Y$)と生産コスト($X$)の関係 (Daouia, Gardes and Girard(2013)
[例3] 金融データ:
(1) ある企業の株式のリターン($Y$)とマーケット指数のリターン($X$)の関係(Chernozhukov and Felnandez-Val(2011))
(2) 為替レートの変化率の極値分位点推定(Kurisu and Otsu(2020))
まとめ
この記事では「データの端に興味があるときのノンパラメトリック分位点回帰」について紹介しました.続編の「データの端に興味があるときの分位点回帰(データ分析編)」では数値実験の結果や金融データへの応用例について解説しています.
株式会社Nospareでは極値統計学に限らず,統計学の様々な分野を専門とする研究者が所属しております.統計アドバイザリーやビジネスデータの分析につきましては株式会社Nospare までお問い合わせください.
参考文献
[1] Chaudhuri, P. (1991) Nonprametric estimates of regression quantiles and their local Bahadur representation. Annals of Statistics, 19, 760-777.
[2] Chernozhukov, V. (2005) Extremal quantile regression. Annals of Statistics, 333, 806-839.
[3] Chernozhukov, V. and Felnandez-Val, I. (2011) Inference for extremal conditional quantile models. Review of Economic Studies, 78, 559-589.
[4] Daouia, A., Gardes, L. and Girard, S. (2013) On kernel smoothing for etremal quantile regression. Bernoulli, 19, 2557-2589.
[5] Kurisu, D and Otsu, T. (2020) Nonparametric inference for extremal conditional quantiles. R&R at Econometric Theory.
[6] Yoshida, T. (2020) Simultaneous confidence bands for extremal quantile regression with splines. Extremes, 23, 117-149.
-
実際には正規分布ではなくポアソン過程の汎関数(確率積分)の最小値に分布収束することが示せます. ↩