More than 5 years have passed since last update.

前処理の時によく使うPythonメソッド(随時更新)

Last updated at 2018-08-05Posted at 2018-07-22

自分用メモ

データ読み込み

ファイル名のみ取得したい場合

import os
path = "ディレクトリパス"
csv_files = [f for f in os.listdir(path) if f.endswith(".csv")]
csv_files

[a.csv,
 b.csv,
 c.csv]

絶対パスを取得したい場合

import glob
files = glob.glob("ディレクトリパス/*.csv")

[ディレクトリパス/a.csv,ディレクトリパス/b.csv,ディレクトリパス/c.csv]

ディレクトリ変更されてない

os.chdir("\データのあるディレクトリ")

でディレクトリを指定する。

文字コードが違う

df_train = pd.read_csv("train.csv" , encoding="shift-jis")

Shift_JISx0213じゃないとダメなときもある

df.head()
df.tail()
df.info()
df.describe()
df.dtypes

df.dtypes.value_counts()

float64 65
int64 41
object 16
dtype: int64

df.select_dtypes('object').apply(pd.Series.nunique,axis=0)

性別 3
国 199
言語 132

df = df[df["合計"]!=0]

df.groupby("種別")["合計"].mean()

df=df.drop("Unnamed: 0",axis=1)

df = df.set_index("合計")

df['Amount'] = pd.to_numeric(df['Amount'])

df = df.replace('↓','0')

df['time'] = pd.to_datetime(df['time'])

resion_list = list(set(df['地域名']))

df_train,df_test = df_train.align(df_test,join='inner',axis = 1)

df.isnull().sum()

df = df.fillna(0)

df.dropna()