どうもCEさぼです。
Qiita初投稿です。
Pythonを使ってデータ分析をしたい。
そんな時、初心者が最初につまづくのが「データの読み込み」です。
(僕も最初はつまづきました。)
分析したいデータがテーブルデータ(ExcelのデータやCSVデータ等)の場合はどうすればよいでしょうか。
今回は最もよく使うであろうExcelファイル(.xlsx)やCSVファイル(.csv)の読み込みを簡単に説明していきます。
実質のコードはたった2行です。
サクッと終わらせてデータ分析の世界に進みましょう。
#開発環境
・Google Colaboratory
Googleアカウントさえあれば誰でもできるGoogle Colaboratoryを使います。
#まずは必要なライブラリのインポート
※事前にGoogle Colaboratoryで適当に新規作成してください。
Pythonにはデータ分析に使える数多くのライブラリが備わっています。
これを使うと比較的簡単に実装することができます。
今回は「pandas」のみでOK。
#pandasをインポート
import pandas as pd
importしたものに「as ~」とすることで任意の文字列で使用することができます。
一般的にpandasはpdと略されます。
#ファイルをGoogle Colaboratoryにアップロード
読み込みたいファイルをGoogle Colaboratoryにアップしましょう。
他に
①コードを書く方法や
②ローカルのファイルを読み込む方法
③GoogleDriveをマウントして読み込む方法(個人的にオススメ)があるみたいですが、今回は一番簡単な方法を紹介します。
手順
①一番左端にあるファイルのアイコンをクリック
②アップロード(画像の赤枠)をクリックして読み込みたいファイルを選ぶorドラッグ&ドロップでもOK
よほどのデータ量じゃなければすぐ終わるのでこれで準備完了です。
#データの読み込みはpd.read_excel、pd.read_csvを使う
では早速やってみましょう。
コードは1行です。
pandasの関数read_excel、read_csvというものを使います。
使い方は
Excelファイルの場合pd.read_excel(ファイルのパス)
CSVファイルの場合pd.read_csv(ファイルのパス)
です。
※pdはインポートした際の名前ですね。
今回はDataFrameにExcel・CSVを読み込むということなので、df、df2と適当に名前を付けて読み込んでみましょう。
僕は今回Google Colaboratoryに2020年の日付データdate_2020.xlsxとdate_2020.csvというファイルをアップしたので、パスはファイル名だけで読み込めます。
前述した①②③の方法ではもう少し長くなります。
#Excel・CSVファイルをDataFrameに読み込む
df = pd.read_excel("date_2020.xlsx")
df2 = pd.read_csv("date_2020.csv")
#head()で実際読み込めたか表示してみる
え?こんなので読み込めたかどうか不安?
エラーがなければ読み込めてると思いますが、念のため確認してみましょう。
定義したDataFrame.head()とすることで先頭の5行を表示することができます。
#先頭行を表示
df.head()
出力結果↓
しっかり読み込めたみたいですね。
####参考
詳細や応用的な使い方も学べます↓
1)pandasでcsv/tsvファイル読み込み(read_csv, read_table)
2)pandasでExcelファイル(xlsx, xls)の読み込み(read_excel)
3)Pandasのread_excelでExcelファイルを読み込む方法