はじめに
**フォルダにある大量のcsvファイルからグラフを自動生成するプログラムを作った方法についてご紹介いたします。**具体的には以下について解説致します。
- フォルダにあるcsvファイルを一括で読み込む方法
- 読み込んだcvsファイルからファイル名を取り出す方法
※プログラミング関係の内容を他にも投稿していますので、よろしければこちらの一覧から他の投稿も見て頂けますと幸いです。
やりたいこと
今回実現したいことを以下に図で示します。(y2_sumについては後述します)
- csvファイルからグラフを作成する
- 作成するグラフのファイル名は元のcvsのファイル名をつける(a.csv→a.png)
- フォルダ内にcsvファイルが大量にあるので、このグラフ作成をループ処理にて自動で行う
環境
- conda 4.8.3
- python 3.8.3
- pandas 1.0.5
試行錯誤
まずは処理するcsvファイルの中身を確認します。今回処理するcsvファイルはすべて同じ形式でデータが保存されています。
import pandas as pd
# CSV名に日本語が含まれるとエラーが出る
data = pd.read_csv("確認したいcsvファイル名.csv", encoding="shift_jis", header=None)
data.head(10)
4行目以下の1列目をx、2列目をy1、3列目をy2として折れ線グラフを書いていきます。y2に関しては合計値が必要なので、各行の総和を求めておきます。
# 変数の定義
# 1列目をxとして定義
x = data.iloc[3:,0]
# 2列目をy1として定義
y1 = data.iloc[3:,1]X
# 3列目をy2として定義
y2 = data.iloc[3:,2]
# 3列目のy2の値の和を定義
y2_sum = sum(y_radiation)
import matplotlib.pyplot as plt
import numpy as np
plt.figure(figsize=(16, 10))
plt.plot(x, y1, label='y1', marker="o", markersize=5, linestyle="solid", color="blue")
plt.plot(x, y2, label='y2', marker="o", markersize=5, linestyle="solid", color="orange")
plt.title("graph_title", fontsize=16)
# 他のデータとの関係でy軸の範囲は0~3500で500刻みに設定しておきます
plt.yticks(np.arange(0,4000,500))
plt.grid()
plt.legend(fontsize=16)
plt.show()
print("y2_sum:"+str(y2_sum))
# この値は一例です
y2_sum:1192873
続いて、フォルダ内の全てのcsvファイルに対してこのグラフ作成の操作を自動で実行できるように考えていきます。
大量のデータがあるので、保存したグラフを判別しやすくするために元データのcsvの名前を"画像の保存名"と"グラフタイトル"につける仕様にします。そのためには元データのcsvファイル名が必要です。まずはこちらを参考にフォルダ内にある全てのcsvファイルの取得を試みます。
import glob
all_csv = glob.glob('C:/Users/参照しているディレクトリ/*.csv')
all_csv
# a.csv, b.csv, … x.csvがある場合
'C:/Users/参照しているディレクトリ/a.csv'
'C:/Users/参照しているディレクトリ/b.csv'
︙
'C:/Users/参照しているディレクトリ/x.csv'
こちらやこちらを参考に読み込んだcsvファイルのパスを取得します。
from pathlib import Path
# 例として上で取得したcsvファイルの1番目のパスを表示
p = Path(all_csv[0])
p
WindowsPath('C:/Users/参照しているディレクトリ/a.csv')
取得したパス名からファイル名を取得していきます。
p.stem
a
無事に元データのcsvの名前を取得することができました。取得したcsvの名前を"画像の保存名"と"グラフタイトル"につける際に**「f文字列」**を使用するので少し解説します。
label = "abc"
print("label")
label
上記のようにlabelを定義しても、printする際に"label"とするとそのままlabelが出力されます。しかし、次のようにf文字列を使うことで初めに定義した"abc"を出力することが可能です。
label = "abc"
print(f"{label}")
abc
完成したコード
これらの試行錯誤を経て完成したコードです。処理時間を記録する仕様も追加しています。
# ライブラリのインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import glob
from pathlib import Path
import datetime
# プログラムの開始時間
start_time = datetime.datetime.today()
print ("開始時刻: " + start_time.strftime('%Y-%m-%d_%H-%M-%S'))
# ラベルとy2の和のリストを作る(このリストをのちにデータフレームに変形してcsvとして出力)
label_list = []
y2_sum_list = []
# 以下の繰り返し処理でcvsファイルからグラフを作成して、y2の値の和を計算
for i in glob.glob('C:/Users/参照しているディレクトリ/*.csv'):
# csvのデータをdataとして取得
data = pd.read_csv(i, encoding="shift_jis", header=None)
# .stemでファイル名をlabelとして取得
label = Path(i).stem
# 変数の定義
# 1列目をxとして定義
x = data.iloc[3:,0]
# 2列目をy1として定義
y1 = data.iloc[3:,1]
# 3列目をy2として定義
y2 = data.iloc[3:,2]
# 3列目のy2の値の和を定義
y2_sum = sum(y2)
# 各csvのラベルとy2の値の和をリストとして保持
label_list.append(label)
y2_sum_list.append(y2_sum)
# グラフの作成
plt.figure(figsize=(16, 10))
plt.plot(x, y1, label='y1', marker="o", markersize=5, linestyle="solid", color="blue")
plt.plot(x, y2, label='y2', marker="o", markersize=5, linestyle="solid", color="orange")
plt.yticks(np.arange(0,4000,500))
plt.title(f"{label}", fontsize=16)
plt.grid()
plt.legend(fontsize=16)
plt.savefig(f"{label}.png")
# ラベルとy2の値の和をリストをデータフレームに変換して保持
# columnsは[]でくくって定義しないとエラーが出る
df_label_list = pd.DataFrame(label_list, columns=["label"])
df_y2_sum_list = pd.DataFrame(y2_sum_list, columns=["y2_sum"])
df = pd.concat([df_label_list, df_y2_sum_list], axis=1)
# データフレームをcsvとして書き出す
df.to_csv("y2_sum_data.csv")
# プログラムの終了時刻
end_time = datetime.datetime.today()
print ("終了時刻: " + end_time.strftime('%Y-%m-%d_%H-%M-%S'))
print ("所要時間: " + str(end_time - start_time))
実行すると同じディレクトリにcsvファイルと同じ名前のグラフ名をpngファイルが保存されます
a.png
b.png
︙
x.png
また"y2_sum_data.csv"には以下のようにy2の総和のデータが保存されています。(y2_sumの数字は一例です)
label | y2_sum | |
---|---|---|
0 | a | 1192873 |
1 | b | 1287319 |
︙ | ︙ | ︙ |
これにて完成です。後輩も喜んでくれました!!
追記
上記のプログラムだとディレクトリをわざわざ指定する必要があるので、カレントディレクトリを自動で指定できる以下のコードの方が便利かなと思いましたので修正案を書きます。修正案で動作することは確認済みです。
# 修正箇所
for i in glob.glob('C:/Users/参照しているディレクトリ/*.csv'):
import os
# 修正案
for i in glob.glob(os.getcwd()+"/*.csv"):
まとめ
フォルダにある大量のcsvファイルからグラフを自動生成するプログラムを作った方法についてご紹介いたしました。