#はじめに
今回記事作成者の機械学習の勉強&メモのために記事を作成しています
間違いなどありましたらコメントにてご指摘いただけると幸いです。
Pythonで必要なライブラリーを呼び出しましょう。
(魔法の言葉みたいなものです。)
#Pythonでグラフを描画するためのライブラリ
import matplotlib.pyplot as plt
#Numerical Pythonを略してNumPy 数値の計算や行列を扱うためのライブラリ
import numpy as np
#テーブル型のデータを処理するためのライブラリ
import pandas as pd
# データ可視化のライブラリ
import seaborn as sns
#最大表示列数の指定(ここでは100列を指定)
pd.set_option('display.max_columns',100)
# floatの表示方法を、小数点以下2桁で設定する処理
pd.options.display.float_format = '{:.2f}'.format
#データセットを呼び出す
分析したいデータセットを下記コードで呼び出します。
#データセットの読み込み
#train.csv → 呼び出したいファイル名を入れてください。
dataset = pd.read_csv("train.csv")
#データセットの中身を確認する方法
#データセットの概要確認をしたい場合
dataset.head()
#指定の場所のデータセットを確認したい場合
#この場合3 ~ 5行目のデータを呼び出してくれる
dataset[3:5]
#データの行数、列数を確認したい場合
dataset.shape
#データの欠損値を確認したい場合
dataset.isnull().sum()
#データの要約統計量を確認したい場合
dataset.describe()
#カラム名(行名)を確認したい場合
dataset.columns
#各列のデータ型の確認したい場合
dataset.dtypes
# データ情報の要約を見る
data.info()
#欠損値を補完する
# rainに欠損値があるので値を補完する場合
#そのため、欠損値を0に置き換える「0」のところを置き換えたい数字にすることで変更することができる。
dataset["rain"].fillna(0, inplace = True)
#inplace = Trueを設定しないと、元のデータセットに反映されない
#日付データを抽出する
date_timeのデータが
2012-03-21 12:34:50
の場合
#日付データから年 / 月 / 日 / 曜日 データを抽出する
#文字列のデータを 日付データに型を変換させる
dataset["date_time"] = pd.to_datetime(dataset["date_time"])
# 年を抽出する
dataset["year"] = dataset["date_time"].dt.year
# 月を抽出する
dataset["month"] = dataset["date_time"].dt.month
# 日を抽出する
dataset["day"] = dataset["date_time"].dt.day
# 時間を抽出する
dataset["hour"] = dataset["date_time"].dt.hour
# 曜日を出力する
dataset["dayofweek"]=dataset["date_time"].dt.strftime("%A")
#データセットで分割されているかを確認する
dataset.loc[:,["year","month","day","hour","dayofweek"]][0:10]
#特徴量作成
##カテゴリデータをダミー変数に変換する。
#カテゴリデータをダミー変数に変換する。
dataset2 = pd.get_dummies(data = dataset, columns = ["hour"])
#項目ごとに行が作成され、0,1で分けてくれる
##条件により特徴量を作成する場合
#20時以降~朝4時までは1, そうでない場合は0という特徴量を追加する場合
#特徴量作成方法1
dataset["isNight"] = ((dataset["hour"]>= 20)|(dataset["hour"]<=5)).astype(int)
# 参考
# https://note.nkmk.me/python-numpy-logical-bitwise-and-or/
# &⇒ and
# | ⇒ or
#特徴量作成方法 2
dataset["isNight"] = np.logical_or(dataset["hour"]>=20, dataset["hour"]<=5).astype(int)
dataset.head()
#参考資料
Pythonによるあたらしいデータ分析の教科書 [ 寺田 学 ]