3

More than 5 years have passed since last update.

kaggle でよく使うコード

#機械学習入門

Last updated at 2019-07-07Posted at 2019-06-30

CSVファイル処理

読込み

train = pd.read_csv("../input/train.csv")

書き出し（先頭列の列名を指定する必要がある。）

train.to_csv("my_train.csv", index_label = ["PassengerId"])

EDA(探索的データ解析)

先頭5行表示

train.head()

最大表示列数の指定(例として300列)

pd.set_option('display.max_columns', 300)

データの形状(行数、列数)を表示

train_shape = train.shape

基本統計量（最大max、最小min、平均mean、標準偏差std）を表示。

train.describe()

欠損数を確認。

train.isnull().sum()

変数同士の相関を見る。(欠損値は除外される)

train.corr()

前処理

欠損値を中央値で埋める。

train["Age"]=train["Age"].fillna(train["Age"].median())

ラベルを数値に変換。

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

le.fit(train["Sex"])
train["Sex"] = le.transform(train["Sex"])

不要なカラムを削除。

train.drop("Fare",axis=1)

列名を指定して取り出し。(2列を指定するDataFrame型で返ってくる)

a = train[["Age","Sex"]]

a = train.loc[:,["Age","Sex"]]

列名を指定して取り出し。(1列を指定するとSeries型で返ってくる)

a = train["Age"]

a = train.loc[:,"Age"]

3

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

3