More than 3 years have passed since last update.

1日目_初心者向けデータ分析基本操作①

Posted at 2020-03-28

①csvデータを読み込む

データ分析をするにはまずはデータを読み込ませる必要があります。
pandasというライブラリを用います。データ解析を支援する機能を提供するライブラリですが、ここでは、csvデータを読み込むにはpandasを使うのねくらいで大丈夫です。
公式ドキュメント：http://pandas.pydata.org/pandas-docs/stable/

コードはこちら

qiita.py

#pandasをインポートしてpdという名前をつける
import　pandas as pd
#csvデータのある場所を指定し、dataという変数にcsvデータを格納する
data=pd.read_csv('ファイルの格納パス/ファイル名.csv')
#csvデータが読み込めたことを確認するために最初の5行を表示する。
data.head()

よくあるエラー
①ファイルが存在しない：ファイルの格納先をもう一度確認し、
今作業しているフォルダから見て今回読み込みたいcsvファイルが
どこにあるかを確認してください。

②データの各種統計量を把握する

以下のコードで、読み込んだデータの全体感を把握することができます。
コードはこちら

qiita.py

#欠損値の数をカラム別に算出
data.isnull().sum()
#各種統計量を確認する(count,mean,std,min,25%,50%,75%,max)
data.describe()

③データの欠損値を処理する

データ分析では、データに欠損値があると上手く処理できないことがあります。そのため、欠損値処理を行います。
まず、以下のコードで、データ欠損値の有無をチェックできます。
コードはこちら

qiita.py

#欠損値の有無をカラム別に算出
data.isnull().sum().any(axis=0)

続いて欠損値の処理方法についてです。
補完方法はいくつか種類がありますが、
ここでは代表的な手法について2つほどご紹介します。

-欠損値を単純に処理する

qiita.py

#nullが含まれる行を削除する
data.dropna()
#nullに0をいれる
data.fillna(0)

-欠損値を平均値で補完する

qiita.py

#平均値を入れる
data["欠損しているカラム名"]=data["欠損しているカラム名"]fillna(data["欠損しているカラム名"].mean())

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up