ライブラリをインポートする
import pandas as pd # データ分析に用いるライブラリ
import matplotlib.pyplot as plt # グラフ表示に用いるライブラリ
pd.set_option('display.unicode.east_asian_width', True) # 表示のずれを少し緩和
plt.rcParams['font.family'] = 'IPAexGothic' # グラフ表示におけるフォントの指定
この4つを毎回、冒頭に記入すること。
データを読み込む
data_path = "./titanic.csv"
df_data = pd.read_csv(data_path, encoding="utf-8-sig")
data_path
にファイルのパスを指定して、df_data
に読み込んだデータを格納する。
データを確認する
ランダムにいくつか表示させてみる
print(df_data.sample(10))
data:image/s3,"s3://crabby-images/3b3cc/3b3cce8b3d95ac9db1509fe7de5e592a414cf768" alt=""
データ数を表示してみる
print(df_data.shape)
data:image/s3,"s3://crabby-images/5d13e/5d13eeea8a07eeafe15a23f2a7ec23be87efa785" alt=""
データの項目(横方向・列方向)を表示してみる
print(df_data.columns)
ある部分だけ表示してみる
print(df_data.loc[0:10, "年齢"])
data:image/s3,"s3://crabby-images/c4586/c45866a80fc6259106fea9655323c1ab00f94fc9" alt=""
最初の10行の年齢
が表示される。
print(df_data.loc[:, "年齢"])
data:image/s3,"s3://crabby-images/cdbf9/cdbf98ff11de7fc548c5204d6cfd2a9dab78c0bf" alt=""
print(df_data.loc[:, ["性別", "年齢"]])
data:image/s3,"s3://crabby-images/662a2/662a293951f3432cda46d41494555f9fc434644a" alt=""
項目の値を全て抽出する
print(df_data.loc[:, "出港地"].unique())
data:image/s3,"s3://crabby-images/5d888/5d8884e59918fccf297c71587bdda1d57cb1a519" alt=""
data:image/s3,"s3://crabby-images/49719/4971986fb9f8cfe8b52ab12cc67b28e89337bf0c" alt=""
条件に合ったデータを表示する場合
mask = df_data["生存状況"] == 1
print(df_data[mask])
data:image/s3,"s3://crabby-images/9c1be/9c1bec6546e66d3893a25e3413a71514b345c06d" alt=""
指定する列の値で並べ替える場合
print(df_data.sort_values(by="旅客クラス", ascending=True))
data:image/s3,"s3://crabby-images/b5236/b523613356a6332b897cd765bfe4b61f5614523c" alt=""
特定の列のある値でまとめた平均値等を表示する場合
print(df_data.groupby("旅客クラス").mean())
data:image/s3,"s3://crabby-images/3b2a2/3b2a21928673d508f1e9faedb465eefdfde13f86" alt=""
特定の列の値の頻度を求める場合
print(df_data["旅客クラス"].value_counts(sort=False))
data:image/s3,"s3://crabby-images/dcd8f/dcd8fa7c9dc335e20f675ad273182c387d652db8" alt=""
データの分析(組合せ編)
特定の列&値の頻度
print(df_data.loc[:, ["旅客クラス", "生存状況"]].value_counts(sort=False))
data:image/s3,"s3://crabby-images/a0131/a01312e445d074a67dec39f051df7fab76f8ad28" alt=""
条件&並べ替え&特定の列
mask = df_data["生存状況"] == 1
print(df_data[mask].sort_values(by="旅客クラス", ascending=True).loc[:, ["旅客クラス", "運賃"]])
data:image/s3,"s3://crabby-images/976bc/976bc9b9bbf922c466fc8575827f6b85afb9a9bb" alt=""