データの前処理
二値化
数値を0か1に変換すること。
- numpyをimport -> 配列を作成
- sklearnからpreprocessingをimport -> Binarizer()を使って、二値化
- 閾値はthresholdで設定
平均値
特徴ベクトルから平均を引くと、特徴量の中心が原点になる。特徴ベクトルからバイアスを除去できる。
- メソッドmean()は平均値を表示
- メソッドstd()は標準偏差を表示
スケーリング
特徴量の値を訓練できる水準までスケーリングすることが大事。
- MinMaxScaler()オブジェクトを生成
- fit_transform()メソッドで最大値、最小値に収まるようにスケーリング
正規化
特徴ベクトルを共通的な尺度に揃えること。
- L1正規化 要素の絶対値の和が1になるようにする。こちらがロバスト
- L2正規化 要素の自乗の和が1になるようにする
ラベルのエンコーディング
ラベルを単語から数字に変換する。
- scikit-learnではラベルが数字である必要がある
- 単語ラベルを数字に変えるにはラベルのエンコーダを用いる
- LabelEncoder()オブジェクトを生成して訓練する
- transform()メソッドで数字変換、inverse_transform()メソッドで単語ラベルに戻る