初めに
機械学習を学ぶ上で、いくつかデータを整備する手法がありますので
簡単にみてきましょう。はじめにまず、「特徴量」というものは何かとおさらいしていきましょう。
特徴量とは、分析対象データの中の、予測の手掛かりとなる変数のことで、気温だったり購入数であったり、様々な統計量を指します。
標準化
特徴量の平均を0、分散が1になるように変換することです。特徴量は標準正規分布に従うようになります。
正規化
データを利用しやすくするために、ルールに基づき、データを変形させることを言います。例えば、各特徴量を最大値で割って、各特徴量が0〜1の値になるように変形させる方法などがあります。
データベースでもテーブルの正規化という考え方がありますね。テーブルの不要な行を削除したり、重複行を削除したりしますが、機械学習においても同じようにデータを扱いやすいように変形させることが「正規化」です。
正則化とは
過学習を防ぐための手法の1つで、パラメータ(重み)に制限をかけることで、複雑になりすぎたモデルをシンプルなモデルにしていくことです。
白色化
各特徴量を無相関化し、平均が0、分散が1になるように変換すること(標準化)です。