CSVファイル処理
- 読込み
train = pd.read_csv("../input/train.csv")
- 書き出し(先頭列の列名を指定する必要がある。)
train.to_csv("my_train.csv", index_label = ["PassengerId"])
EDA(探索的データ解析)
- 先頭5行表示
train.head()
- 最大表示列数の指定(例として300列)
pd.set_option('display.max_columns', 300)
- データの形状(行数、列数)を表示
train_shape = train.shape
- 基本統計量(最大max、最小min、平均mean、標準偏差std)を表示。
train.describe()
- 欠損数を確認。
train.isnull().sum()
- 変数同士の相関を見る。(欠損値は除外される)
train.corr()
前処理
- 欠損値を中央値で埋める。
train["Age"]=train["Age"].fillna(train["Age"].median())
- ラベルを数値に変換。
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(train["Sex"])
train["Sex"] = le.transform(train["Sex"])
- 不要なカラムを削除。
train.drop("Fare",axis=1)
- 列名を指定して取り出し。(2列を指定するDataFrame型で返ってくる)
a = train[["Age","Sex"]]
a = train.loc[:,["Age","Sex"]]
- 列名を指定して取り出し。(1列を指定するとSeries型で返ってくる)
a = train["Age"]
a = train.loc[:,"Age"]