LoginSignup
0
0

教師あり学習 分類と回帰

Posted at

データの前処理

二値化

数値を0か1に変換すること。
  • numpyをimport -> 配列を作成
  • sklearnからpreprocessingをimport -> Binarizer()を使って、二値化
  • 閾値はthresholdで設定

平均値

特徴ベクトルから平均を引くと、特徴量の中心が原点になる。特徴ベクトルからバイアスを除去できる。
  • メソッドmean()は平均値を表示
  • メソッドstd()は標準偏差を表示

スケーリング

特徴量の値を訓練できる水準までスケーリングすることが大事。
  • MinMaxScaler()オブジェクトを生成
  • fit_transform()メソッドで最大値、最小値に収まるようにスケーリング

正規化

特徴ベクトルを共通的な尺度に揃えること。
  • L1正規化 要素の絶対値の和が1になるようにする。こちらがロバスト
  • L2正規化 要素の自乗の和が1になるようにする

ラベルのエンコーディング

ラベルを単語から数字に変換する。
  • scikit-learnではラベルが数字である必要がある
  • 単語ラベルを数字に変えるにはラベルのエンコーダを用いる
  • LabelEncoder()オブジェクトを生成して訓練する
  • transform()メソッドで数字変換、inverse_transform()メソッドで単語ラベルに戻る
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0