前提
データ分析する際のメモ用と記事を作成しました。
データセットは、Cancerデータを使用しました。
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
cancer=load_breast_cancer()
x_train,x_test,y_train,y_test=train_test_split(cancer.data,cancer.target,random_state=1)
前処理の種類
Standard Scaler
個々の特徴量を以下のように変換
平均:0
分散:1
from sklearn.preprocessing import StandardScaler
scaler=StandardScaler()
x_train=scaler.transform(x_train)
RobustScaler
個々の特徴量を以下のように変換
平均:中央値
分散:四分位数
from sklearn.prerpocessing import RobustScaler
scaler=RobustScaler()
x_train=scaler.transform(x_train)
MinMaxScaler
データを0〜1の間に入るように変換
from sklearn.preprocessing import MinMaxScaler
scaler=MinMaxScaler()
x_train=scaler.transform(x_train)