0

More than 1 year has passed since last update.

教師あり学習　分類と回帰

0

Posted at 2024-02-17

データの前処理

二値化

数値を0か1に変換すること。

numpyをimport -> 配列を作成
sklearnからpreprocessingをimport -> Binarizer()を使って、二値化
閾値はthresholdで設定

平均値

特徴ベクトルから平均を引くと、特徴量の中心が原点になる。特徴ベクトルからバイアスを除去できる。

メソッドmean()は平均値を表示
メソッドstd()は標準偏差を表示

スケーリング

特徴量の値を訓練できる水準までスケーリングすることが大事。

MinMaxScaler()オブジェクトを生成
fit_transform()メソッドで最大値、最小値に収まるようにスケーリング

正規化

特徴ベクトルを共通的な尺度に揃えること。

L1正規化　要素の絶対値の和が1になるようにする。こちらがロバスト
L2正規化　要素の自乗の和が1になるようにする

ラベルのエンコーディング

ラベルを単語から数字に変換する。

scikit-learnではラベルが数字である必要がある
単語ラベルを数字に変えるにはラベルのエンコーダを用いる
LabelEncoder()オブジェクトを生成して訓練する
transform()メソッドで数字変換、inverse_transform()メソッドで単語ラベルに戻る

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0