More than 5 years have passed since last update.

Excelでこんなことやってたよなー、をPythonに置き換える　その3

Last updated at 2020-05-25Posted at 2020-05-25

今日はデータサイエンスチックな標準化。とはいうもののこれまでは単に比較しやすかったので処理してた。
エクセルではSTANDARDIZE関数でやるけど、pythonだとどうなるのか調べてみた。

標準化とは？

単位とか平均値の違うデータ同士を比べやすくするための処理。
値から平均を引いて標準偏差で割ると算出できます。例えば

A　：　６００００
　平均　　　＝　４8０００
　標準偏差　＝　８０００

B　：　８００００
平均　　　＝　６７０００
標準偏差　＝　９５００

みたいなとき、パッとどっちが相対的に順位高いのかわからないとき

Aの標準化　＝　（６００００　ー　４8０００）　／　8０００　＝　1.5
Bの標準化　＝　（８００００　ー　６７０００）　／　９0００　＝　1.4

とすると比較しやすいよねってやつです。
有名なのは、偏差値ですね。
偏差値は、元の点数を標準化して、点数（＝Z値）を１０倍して５０足したものです。

標準化

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()
df_sc = sc.fit_transform(df)

一瞬のできごとでした。
StandardScalerの引数はcopy、with_mean、with_std、全部TrueでOK。
もうちょっと何かするときにFalseにするみたいだけど今はいいや。誰か教えてください！

なんか悔しいので、自分でコード書いたらどうなるか頑張ってみた。

標準化を自力で

import math

def standardize(X):
 mean = sum(X) / len(X)
 var  = sum([(mean - XX) ** 2 for XX in X ]) / len(X)
 std  = math.sqrt(var)
 z    = [XX / std for XX in [XX - mean for XX in X]]
 return [mean, var, std, z]

mean, var, std, z = standardize(X)

一応これでできた、でもこれだと複数列を一気に標準化できないのかな。
素直にStandardScalerを使えばいいか。

まとめ

標準化って分析ではよく使うので、少しデータサイエンスっぽいことになって面白かった。
sklearnは機械学習に欠かせないライブラリなんですね。それも知れたのでよし。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Excelでこんなことやってたよなー、をPythonに置き換える その3

標準化とは？

標準化

標準化を自力で

まとめ

Excelでこんなことやってたよなー、をPythonに置き換える　その3