標準化とは
標準化とは、特徴量を標準正規分布(平均を0,分散を1)のスケーリングに合わせる処理のことです。変換の式は、次式となります。
$$ x_{std, i} = \frac{x_i-\mu}{\sigma} $$
$$ (x_i: 元データ, \mu:平均, \sigma:標準偏差) $$
正規化とは
正規化とは、特徴量の値の範囲を一定の範囲に収める変換で、その範囲は主に[0, 1]、または [-1, 1]となります、範囲を[0, 1]にするときの変換式は、次式となります。
$$ x_{norm, i}=\frac{x_i - x_{min}}{x_{max}-x_{min}} $$
$$ (x_i:元データ, x_{min}:最小値, x_{max}:最大値) $$
標準化と正規化の使い分け
正規化は外れ値の影響が大きいので、基本は標準化を使います。以下が使い分けの例です。
標準化
- ロジスティック回帰、SVM、NNなど勾配法を用いたモデル
- kNN、k-meansなどの距離を用いるモデル
- PCA、LDA(潜在的ディリクレ配分法)、kernel PCAなどのfeature extractionの手法
正規化
- 画像処理における RGBの強さ [0, 255]
- sigmoid, tanhなどの活性化関数を用いる,NNのいくつかのモデル
使わない時
決定木,ランダムフォレスト