0
0

Pandas

Last updated at Posted at 2021-10-30

(環境は Ubuntu 20.04.2 Jupyter Notebook)

CSVの読み込み

sample1.py
import pandas as pd
csv_dataframe = pd.read_csv('csv_data.csv')

Jupyter Notebookのカレントディレクトリは、下記で確認できるそうです。

samle1.1.py
import os
os.getcwd()

データの読み込み

.head() でデータ表示(引数に表示させたいデータ行数を指定可。省略した場合、5行)

sample2.py
import pandas as pd
csv_dataframe = pd.read_csv('csv_data.csv')
csv_dataframe.head(100)

データフレームを縦に結合

SQLのUNION
.concat()
  引数には、Dataframe型 or Series型のオブジェクトを[]で囲んで、","区切りで
  (他にも横方向に結合できたり、結合方法(外部結合など)も変更できるみたいっす)
  ignore_index=True とすることで、要素番号を0から振り直してもらえる。
  (https://sinhrks.hatenablog.com/entry/2015/01/28/073327 をご参照)

sample3.py
csv_datas = pd.concat([csv_data_1, csv_data_2],ignore_index=True)

データを結合

SQLのJOIN
下記サイトがすごくわかりやすく丁寧に纏められています。
https://deepage.net/features/pandas-merge.html

sample4.py
csv_merged = pd.merge(csv_data_1,csv_data2[["列名1","列名2","列名3"]],on="key",how="left")

・結合の際に、列を抽出したい場合は、Dataframe型のオブジェクトの後ろに[]で囲んで","区切りで列名を指定
・on= に結合キーを指定
・how= で結合方法を ‘left’,’right’,‘outer’,’inner’ から指定

カスタム列を追加

sample5.py
csv_data["add_column"] = csv_data["column1"] * csv_data["column2"]

この場合、csv_dataのデータフレームに、列"add_column"が追加され、その値は、列”column1" × 列"column2" の結果となります。

値の合計

Dataframe型のオブジェクト名["列名"].sum() で指定列の合計値を返します。

sample6.py
print(csv_data["column"].sum())

列ごとに欠損値の個数を確認

sample7.py
print(csv_data.isnull().sum())

下記で行ごとの欠損値の個数を確認することも可。

sample8.py
print(csv_data.isnull().sum(axis=1))
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0