はじめに
雑多になるとは思うが、データ前処理で扱うnumpyとかの関数の使い方を残す
前提
import numpy as np
import pandas as pd
df = pd.read_csv(...)
np.where
参考:https://www.sejuku.net/blog/73049
例えば欠損値に対して有無フラグを建てたいなぁなど、データの置換をしたい場合はコレを使う。
np.where(
condition, # 条件式
x, # conditionがTrueだったときに元の配列要素の代わりに代入される値
y # conditionがFalseだったときに元の配列要素の代わりに代入される値
)
df.iloc, df.loc
参考:http://ailaby.com/lox_iloc_ix/
データフレームのデータ参照のための関数。
locとilocの違いはラベルで参照するか、インデックス値で参照するかの違い。ixはラベルもインデックス値も使える。
行、列の指定方法
loc 行ラベル、 列ラベル
iloc 行の番号(0 ~ )、列の番号(0 ~ )
ix 行ラベル、列ラベル または 行の番号(0 ~ )、列の番号(0 ~ )