Pythonには超絶便利なライブラリがたくさん。
今回は、Pandasライブラリを使ったCSV読み込み手順をご説明。
infoは除いたけど、とりあえず最低限これが使えれば、
ファイル読み込み処理の初歩はできますね👌
1. ライブラリのインストール(入っていなければ)
以下を実行。
#x.x.xはインストールするバージョン
mamba install pandas==x.x.x -y
#x.x.xはインストールするバージョン
mamba install numpy=x.x.x -y
2. Import宣言
import pandas as pds
import numpy as np
3. ファイルの読み込み (read_csv) ※ロードしたに過ぎないので、この後データの読み上げが必要。
csvファイルを読み込むには、read_csvを使います。
pandas.read_csv(ファイルパス, option)で呼び出します。
import pandas as pds
file_path = "https://people.sc.fsu.edu/~jburkardt/data/csv/cities.csv"
d_frame = pds.read_csv(file_path, header=None)
4. 先頭から n行のデータを読み込み(head)
d_frame.head(5) #先頭からヘッダを除いて5行を取得できる
5. 末尾から、n行のデータを読み込み(tail)
d_frame.tail(5) #末尾から5行を取得できる
6. DataFrameにヘッダを追加する(CSVにあるときは、read_csvのOptionを変える)
headers = ["LatD", "LatM", "LatS", "NS", "LonD", "LonM", "LonS", "EW", "City", "State"]
d_frame.columns = headers #先頭にヘッダが出力される
7.欠落値を落とす
d_frame2 = d_frame.replace('?', np.NaN) #"?"の値は、NaNに置き換える
d_frame = d_frame2.dropna(subset["price"], axis=0) #Price=NaNのデータを除外する
8.列名を書き出す
d_frame.columns
9.読み込んだDataFrameをCSVに書き出す
d_frame.to_csv("xxx.csv", index=False)
10.データタイプを調べる(DataFrameに含まれる列および、列の方一覧が表示される)
d_frame.dtypes
11. 数値型列の統計サマリ情報(データ数や、平均値などの統計サマリ)を見る
d_frame.describe()
12. 数値以外のフィールドも(できるだけ)統計サマリ情報を見る
d_frame.describe(include = "all")
APPENDIX - csv以外の読み書き
# json
pds.read_json()
pds.to_json()
# excel
pds.read_excel()
pds.to_excel()
#hdf
pds.read_hdf()
pds.to_hdf()
#sql
pds.read_sql()
pds.to_sql()