(環境は Ubuntu 20.04.2 Jupyter Notebook)
CSVの読み込み
import pandas as pd
csv_dataframe = pd.read_csv('csv_data.csv')
Jupyter Notebookのカレントディレクトリは、下記で確認できるそうです。
import os
os.getcwd()
データの読み込み
.head() でデータ表示(引数に表示させたいデータ行数を指定可。省略した場合、5行)
import pandas as pd
csv_dataframe = pd.read_csv('csv_data.csv')
csv_dataframe.head(100)
データフレームを縦に結合
SQLのUNION
.concat()
引数には、Dataframe型 or Series型のオブジェクトを[]で囲んで、","区切りで
(他にも横方向に結合できたり、結合方法(外部結合など)も変更できるみたいっす)
ignore_index=True とすることで、要素番号を0から振り直してもらえる。
(https://sinhrks.hatenablog.com/entry/2015/01/28/073327 をご参照)
csv_datas = pd.concat([csv_data_1, csv_data_2],ignore_index=True)
データを結合
SQLのJOIN
下記サイトがすごくわかりやすく丁寧に纏められています。
https://deepage.net/features/pandas-merge.html
csv_merged = pd.merge(csv_data_1,csv_data2[["列名1","列名2","列名3"]],on="key",how="left")
・結合の際に、列を抽出したい場合は、Dataframe型のオブジェクトの後ろに[]で囲んで","区切りで列名を指定
・on= に結合キーを指定
・how= で結合方法を ‘left’,’right’,‘outer’,’inner’ から指定
カスタム列を追加
csv_data["add_column"] = csv_data["column1"] * csv_data["column2"]
この場合、csv_dataのデータフレームに、列"add_column"が追加され、その値は、列”column1" × 列"column2" の結果となります。
値の合計
Dataframe型のオブジェクト名["列名"].sum() で指定列の合計値を返します。
print(csv_data["column"].sum())
列ごとに欠損値の個数を確認
print(csv_data.isnull().sum())
下記で行ごとの欠損値の個数を確認することも可。
print(csv_data.isnull().sum(axis=1))