More than 3 years have passed since last update.

Learn Python In Seminar〜基本統計量と簡単なグラフ化〜

Last updated at 2021-05-22Posted at 2021-05-09

概要

今回は基本統計量を確認し、基本的なヒストグラムと棒グラフにする方法です。
他にも「Learn Python In Seminar」のシリーズとして書いているので、よければご覧ください！

基本統計量

インポート

import pandas as pd
from matplotlib import pyplot as plt

基本統計量

Pandasのdescribe関数で基本統計量を確認可能

# 数値型以外の変数も合わせて見る場合はinclude='all'を渡す
DataFrame.decribe(include='all')

↓ 結果の例

            test1       test2 
count  198.000000  198.000000  # データの個数
mean     1.616162   23.961111  # 平均値
std      0.827289    8.399846  # 標準偏差
min      1.000000    9.000000  # 最小値
25%      1.000000   17.000000  # 第一四分位数
50%      1.000000   23.000000  # 第二四分位数(中央値)
75%      2.000000   30.375000  # 第三四分位数
max      3.000000   46.600000  # 最大値

中央値より平均値が大きい場合
→データの分布は値が小さい方向に偏っている可能性がある

データの可視化

DataFrameとSeries

DataFrame：横と縦に広がっているエクセルのような２次元データ
Series：１カラムを選択したデータ型であり、１列のみの１次元データ

type(data) # dataがDataFrameかSeriesか確認可能

インポート

import pandas as pd
from matplotlib import pyplot as plt

ヒストグラム

度数分布
棒の間に間隔がない
量的データを確認

Series.plot.hist(title='ヒストグラムのタイトル')

plt.show()

棒グラフ

独立したデータの比較
棒の間に間隔がない
質的データを確認

最頻値

Pandasライブラリのvalue_counts関数で最頻値が確認可能

Series.value_counts()

↓ 結果の例

Out[ 3 ] :  
FR     65
FF     52
4WD    31
RR     27
MR     23

グラフの描画

Pandasライブラリのplotメソッド

Series.plot.bar()
plt.show()

↓ 最頻値がないとエラー

data = pd.read_csv('data.csv')
Series = data['カラム名'].value_counts()
Series.plt.bar()
plt.show()

縦軸と横軸に名前

plt.xlabel('X軸につけたい名前')
plt.ylabel('Y軸につけたい名前')

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up