More than 3 years have passed since last update.

【ラビットチャレンジ】要点のまとめ - 機械学習その２

Last updated at 2021-01-11Posted at 2020-06-12

1. はじめに

本記事はJDLA E資格の認定プログラム「ラビットチャレンジ」における機械学習のレポート記事である。
本記事では機械学習における「非線形回帰モデル」について要点をまとめている。

【ラビットチャレンジ】要点のまとめ - 機械学習その１
【ラビットチャレンジ】要点のまとめ - 機械学習その２
【ラビットチャレンジ】要点のまとめ - 機械学習その３
 【ラビットチャレンジ】要点のまとめ - 機械学習その４
 【ラビットチャレンジ】要点のまとめ - 機械学習その５
 【ラビットチャレンジ】要点のまとめ - 機械学習その６

2. 非線形回帰モデル

2.1. 非線形回帰モデリング

複雑な非線形構造を内在する現象に対して、実施するモデリング。

2.2. 基底展開法

回帰関数に「『基底関数』と呼ばれる既知の非線形関数」と「パラメータベクトル」の線形結合を使用。

モデル数式：$ y_{i} = f(\boldsymbol{x}_{i}) + \varepsilon_{i} = w_{0} + \sum_{j=1}^{m}w_{j}\phi_{j}(\boldsymbol{x}_{i}) + \varepsilon_{i} $
$ \qquad y_{i}$：目的変数
$ \qquad w_{0}$：切片
$ \qquad w_{i}$：回帰係数
$ \qquad \phi(\boldsymbol{x}_{i})$：基底関数
$ \qquad \boldsymbol{x}_{i} $：説明変数
$ \qquad \varepsilon_{i}$：誤差
説明変数：
$ \qquad \boldsymbol{x}_{i} = (x_{i1}, x_{i2}, \cdots, x_{im}) \in \mathbb{R}^{m} $
非線形関数ベクトル：
$ \qquad \boldsymbol{\phi}(\boldsymbol{x}_{i}) = (\phi_{1}(\boldsymbol{x}_{i}), \phi_{2}(\boldsymbol{x}_{i}), \cdots, \phi_{k}(\boldsymbol{x}_{i}))^{T} \in \mathbb{R}^k$
$ \qquad k$次元の特徴ベクトル。事前に用意した$\phi_{1}～\phi_{k}$の写像で変換する。
非線形関数の計画行列：
$ \qquad \Phi^{(train)} = (\phi(x_{1}), \phi(x_{2}), \cdots , \phi(x_{n})) \in \mathbb{R}^{n \times k} $
最尤法による予測値：
$ \qquad \hat{y} = \Phi(\Phi^{(train)T}\Phi^{(train)})^{-1}\Phi^{(train)T} \boldsymbol{y}^{(train)} $

$ \qquad n$：データ数
$ \qquad i$：データの参照インデックス
$ \qquad m$：説明変数（次元）の数
$ \qquad j$：説明変数（次元）の参照インデックス
$ \qquad k$：基底関数の数

よく使われる基底関数
- 多項式関数　$ \phi_{j}(x) = x^{j} $
- ガウス型基底関数　$ \smash{\phi_{j}(x) = exp \biggl\{ \dfrac{(x - \mu_{j})^{2}}{2h_{j}} \biggr\} } $
- スプライン関数 / Bスプライン関数

2.3. 未学習・過学習

未学習（Underfitting）
訓練誤差（学習データに対する誤差）が十分に小さくなっていない状態。
- 対策：訓練誤差の小さくなるような表現力の高いモデルを使用する。
過学習（Overfitting）
訓練誤差は十分に小さくなっているが、検証誤差が大きくなっている状態。
- 対策１：学習データ数を増やす。
- 対策２：不要な基底関数を削除する。
  　　　　基底関数をデータ空間上に敷き詰めればデータの表現力が上がるが、それが過学習の原因にもなる。
  　　　　敷き詰めた基底関数から不要なものを間引けば表現力を抑えることができ、過学習対策になる。
- 対策３：正則化法を利用する。

2.4. 正則化法（罰則化法）

「モデルの複雑さに伴って、その値が大きくなる『正則化項（罰則項）』を課した関数」を最小化する方法。
ただMSEなどの損失関数が最小となる点を探すのではなく、原点近辺においてパラメータに制約を与え、その制約下で最小になる点を探す方法。

正則化項
モデルの複雑さに伴って値が大きくなる項
- なし⇒最小二乗推定量
- L2ノルムを利用⇒Ridge推定量（縮小推定）
  パラメータを0に近づけるよう推定する
- L1ノルムを利用⇒Lasso推定量（スパース推定）
  いくつかのパラメータを正確に0に推定する
  　→影響の小さい変数を0にするため、変数を選ぶ指標になる。
ノルムいろいろなものの「大きさ」を表す量
- L1ノルム：各成分の絶対値の和。マンハッタン距離
- L2ノルム：通常の意味での距離。ユークリッド距離
参考
　正則化の種類と目的 L1正則化 L2正則化について
　ノルムの意味とL1，L2，L∞ノルム
　ディープラーニングで用いられる6つの距離計算
数式
$ \qquad S_{\gamma} = (\boldsymbol{y} - \Phi^{n \times k}\boldsymbol{w})^{T}(\boldsymbol{y} - \Phi\boldsymbol{w}) + \gamma\boldsymbol{R}(\boldsymbol{w})$
$ \qquad \qquad S_{\gamma} $：モデルの複雑さに伴って、その値が大きくなる正則化項を課した関数
$ \qquad \qquad \boldsymbol{y} $：目的変数
$ \qquad \qquad \Phi $：非線形関数の計画行列
$ \qquad \qquad n \times k $：データ数×基底関数の数
$ \qquad \qquad \boldsymbol{w}$：回帰係数
$ \qquad \qquad \gamma\boldsymbol{R}(\boldsymbol{w}) $：正規化項
正則化（平滑化）パラメータ
モデルの曲線のなめらかさを調節するパラメータ。ハイパーパラメータのため、人が適切に設定する必要がある。

2.5. 汎化性能

汎化性能
学習に使用した入力だけでなく、未知のデータに対してどの程度正確に判断できるかという予測性能
訓練誤差：モデルの学習内で使用する
$ \qquad MSE_{train} = \dfrac{1}{n_{train}}\displaystyle\sum\nolimits_{i=1}^{n_{train}}(\hat{y}_{i}^{(train)} - y_{i}^{(train)})^{2} $
テスト誤差（検証誤差）：モデルの性能測定時に使用する
$ \qquad MSE_{test} = \dfrac{1}{n_{test}}\displaystyle\sum\nolimits_{i=1}^{n_{test}}(\hat{y}_{i}^{(test)} - y_{i}^{(test)})^{2} $
学習状況の判断
- 訓練誤差、検証誤差ともに大きい⇒未学習
- 訓練誤差は小さいが検証誤差は大きい⇒過学習
- 訓練誤差、検証誤差ともに小さい⇒汎化しているモデルの可能性が高い

2.6. モデルの検証

2.6.1. ホールドアウト法

有限のデータを学習用と検証用の2種類に分割する方法。
手元に大量のデータがある場合でなければホールドアウト法は適さないことが多い。
また、分割時にはデータに偏りが生まれないよう留意する必要もある。

2.6.2. 交差検証（クロスバリデーション, Cross Validation(CV)）

イテレータという単位でホールドアウト法を繰り返し回す方法。

手順
1. データを複数のブロックに分割する。
2. その中のひとつ以外のブロックを学習データ、残したひとつのブロックを検証データとして学習を行う。
  （これをイテレータという。）
3. すべてのブロックが必ず1回だけ検証データとして使われるようにイテレータを回す。
  （データ＝5分割の場合、全てのブロックを必ず1度だけ検証データとして扱うために、イテレータは5回回す。）
利点
　- データ数が比較的少なくても効率よく学習を行える。
　- 分割時のデータの偏りの影響が出にくい。