0
0

More than 3 years have passed since last update.

1日目_初心者向けデータ分析基本操作①

Posted at

①csvデータを読み込む

データ分析をするにはまずはデータを読み込ませる必要があります。
pandasというライブラリを用います。データ解析を支援する機能を提供するライブラリですが、ここでは、csvデータを読み込むにはpandasを使うのねくらいで大丈夫です。
公式ドキュメント:http://pandas.pydata.org/pandas-docs/stable/

コードはこちら

qiita.py
#pandasをインポートしてpdという名前をつける
import pandas as pd
#csvデータのある場所を指定し、dataという変数にcsvデータを格納する
data=pd.read_csv('ファイルの格納パス/ファイル名.csv')
#csvデータが読み込めたことを確認するために最初の5行を表示する。
data.head()

よくあるエラー
①ファイルが存在しない:ファイルの格納先をもう一度確認し、
今作業しているフォルダから見て今回読み込みたいcsvファイルが
どこにあるかを確認してください。

②データの各種統計量を把握する

以下のコードで、読み込んだデータの全体感を把握することができます。
コードはこちら

qiita.py
#欠損値の数をカラム別に算出
data.isnull().sum()
#各種統計量を確認する(count,mean,std,min,25%,50%,75%,max)
data.describe()

③データの欠損値を処理する

データ分析では、データに欠損値があると上手く処理できないことがあります。そのため、欠損値処理を行います。
まず、以下のコードで、データ欠損値の有無をチェックできます。
コードはこちら

qiita.py
#欠損値の有無をカラム別に算出
data.isnull().sum().any(axis=0)

続いて欠損値の処理方法についてです。
補完方法はいくつか種類がありますが、
ここでは代表的な手法について2つほどご紹介します。

-欠損値を単純に処理する

qiita.py
#nullが含まれる行を削除する
data.dropna()
#nullに0をいれる
data.fillna(0)

-欠損値を平均値で補完する

qiita.py
#平均値を入れる
data["欠損しているカラム名"]=data["欠損しているカラム名"]fillna(data["欠損しているカラム名"].mean())
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0