0
0

More than 1 year has passed since last update.

Python - pandasライブラリを使ってCSVファイルを読み込む - 初級編

Last updated at Posted at 2022-02-18

Pythonには超絶便利なライブラリがたくさん。

今回は、Pandasライブラリを使ったCSV読み込み手順をご説明。
infoは除いたけど、とりあえず最低限これが使えれば、
ファイル読み込み処理の初歩はできますね👌

1. ライブラリのインストール(入っていなければ)

以下を実行。

#x.x.xはインストールするバージョン
mamba install pandas==x.x.x -y 
#x.x.xはインストールするバージョン
mamba install numpy=x.x.x -y 

2. Import宣言

import pandas as pds
import numpy as np

3. ファイルの読み込み (read_csv) ※ロードしたに過ぎないので、この後データの読み上げが必要。

csvファイルを読み込むには、read_csvを使います。

pandas.read_csv(ファイルパス, option)で呼び出します。

import pandas as pds

file_path = "https://people.sc.fsu.edu/~jburkardt/data/csv/cities.csv"
d_frame = pds.read_csv(file_path, header=None)

4. 先頭から n行のデータを読み込み(head)

d_frame.head(5) #先頭からヘッダを除いて5行を取得できる

5. 末尾から、n行のデータを読み込み(tail)

d_frame.tail(5) #末尾から5行を取得できる

6. DataFrameにヘッダを追加する(CSVにあるときは、read_csvのOptionを変える)

headers = ["LatD", "LatM", "LatS", "NS", "LonD", "LonM", "LonS", "EW", "City", "State"]
d_frame.columns = headers #先頭にヘッダが出力される

7.欠落値を落とす

d_frame2 = d_frame.replace('?', np.NaN) #"?"の値は、NaNに置き換える
d_frame = d_frame2.dropna(subset["price"], axis=0) #Price=NaNのデータを除外する

8.列名を書き出す

d_frame.columns

9.読み込んだDataFrameをCSVに書き出す

d_frame.to_csv("xxx.csv", index=False)

10.データタイプを調べる(DataFrameに含まれる列および、列の方一覧が表示される)

d_frame.dtypes

11. 数値型列の統計サマリ情報(データ数や、平均値などの統計サマリ)を見る

d_frame.describe()

12. 数値以外のフィールドも(できるだけ)統計サマリ情報を見る

d_frame.describe(include = "all")

APPENDIX - csv以外の読み書き

# json
pds.read_json()
pds.to_json()

# excel
pds.read_excel()
pds.to_excel()

#hdf
pds.read_hdf()
pds.to_hdf()

#sql
pds.read_sql()
pds.to_sql()
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0