Edited at

データ前処理で扱う、pythonの関数


はじめに

雑多になるとは思うが、データ前処理で扱うnumpyとかの関数の使い方を残す


前提

import numpy as np

import pandas as pd
df = pd.read_csv(...)


np.where

参考:https://www.sejuku.net/blog/73049

例えば欠損値に対して有無フラグを建てたいなぁなど、データの置換をしたい場合はコレを使う。

np.where(

condition, # 条件式
x, # conditionがTrueだったときに元の配列要素の代わりに代入される値
y # conditionがFalseだったときに元の配列要素の代わりに代入される値
)


df.iloc, df.loc

参考:http://ailaby.com/lox_iloc_ix/

データフレームのデータ参照のための関数。

locとilocの違いはラベルで参照するか、インデックス値で参照するかの違い。ixはラベルもインデックス値も使える。

行、列の指定方法

loc 行ラベル、 列ラベル

iloc 行の番号(0 ~ )、列の番号(0 ~ )

ix 行ラベル、列ラベル または 行の番号(0 ~ )、列の番号(0 ~ )