Pandas

Last updated at 2024-04-29Posted at 2021-10-30

（環境は Ubuntu 20.04.2 Jupyter Notebook）

CSVの読み込み

sample1.py

import pandas as pd
csv_dataframe = pd.read_csv('csv_data.csv')

Jupyter Notebookのカレントディレクトリは、下記で確認できるそうです。

samle1.1.py

import os
os.getcwd()

データの読み込み

.head()　でデータ表示（引数に表示させたいデータ行数を指定可。省略した場合、5行）

sample2.py

import pandas as pd
csv_dataframe = pd.read_csv('csv_data.csv')
csv_dataframe.head(100)

データフレームを縦に結合

SQLのUNION
.concat()
　　引数には、Dataframe型 or Series型のオブジェクトを[]で囲んで、","区切りで
　　（他にも横方向に結合できたり、結合方法（外部結合など）も変更できるみたいっす）
　　ignore_index=True とすることで、要素番号を0から振り直してもらえる。
　　（https://sinhrks.hatenablog.com/entry/2015/01/28/073327 をご参照）

sample3.py

csv_datas = pd.concat([csv_data_1, csv_data_2],ignore_index=True)

データを結合

SQLのJOIN
下記サイトがすごくわかりやすく丁寧に纏められています。
https://deepage.net/features/pandas-merge.html

sample4.py

csv_merged = pd.merge(csv_data_1,csv_data2[["列名１","列名2","列名3"]],on="key",how="left")

・結合の際に、列を抽出したい場合は、Dataframe型のオブジェクトの後ろに[]で囲んで","区切りで列名を指定
・on= に結合キーを指定
・how= で結合方法を　‘left’,’right’,‘outer’,’inner’　から指定

カスタム列を追加

sample5.py

csv_data["add_column"] = csv_data["column1"] * csv_data["column2"]

この場合、csv_dataのデータフレームに、列"add_column"が追加され、その値は、列”column1" × 列"column2" の結果となります。

値の合計

Dataframe型のオブジェクト名["列名"].sum() で指定列の合計値を返します。

sample6.py

print(csv_data["column"].sum())

列ごとに欠損値の個数を確認

sample7.py

print(csv_data.isnull().sum())

下記で行ごとの欠損値の個数を確認することも可。

sample8.py

print(csv_data.isnull().sum(axis=1))

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up