①csvデータを読み込む
データ分析をするにはまずはデータを読み込ませる必要があります。
pandasというライブラリを用います。データ解析を支援する機能を提供するライブラリですが、ここでは、csvデータを読み込むにはpandasを使うのねくらいで大丈夫です。
公式ドキュメント:http://pandas.pydata.org/pandas-docs/stable/
コードはこちら
qiita.py
#pandasをインポートしてpdという名前をつける
import pandas as pd
#csvデータのある場所を指定し、dataという変数にcsvデータを格納する
data=pd.read_csv('ファイルの格納パス/ファイル名.csv')
#csvデータが読み込めたことを確認するために最初の5行を表示する。
data.head()
よくあるエラー
①ファイルが存在しない:ファイルの格納先をもう一度確認し、
今作業しているフォルダから見て今回読み込みたいcsvファイルが
どこにあるかを確認してください。
②データの各種統計量を把握する
以下のコードで、読み込んだデータの全体感を把握することができます。
コードはこちら
qiita.py
#欠損値の数をカラム別に算出
data.isnull().sum()
#各種統計量を確認する(count,mean,std,min,25%,50%,75%,max)
data.describe()
③データの欠損値を処理する
データ分析では、データに欠損値があると上手く処理できないことがあります。そのため、欠損値処理を行います。
まず、以下のコードで、データ欠損値の有無をチェックできます。
コードはこちら
qiita.py
#欠損値の有無をカラム別に算出
data.isnull().sum().any(axis=0)
続いて欠損値の処理方法についてです。
補完方法はいくつか種類がありますが、
ここでは代表的な手法について2つほどご紹介します。
-欠損値を単純に処理する
qiita.py
#nullが含まれる行を削除する
data.dropna()
#nullに0をいれる
data.fillna(0)
-欠損値を平均値で補完する
qiita.py
#平均値を入れる
data["欠損しているカラム名"]=data["欠損しているカラム名"]fillna(data["欠損しているカラム名"].mean())