0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Learn Python In Seminar〜基本統計量と簡単なグラフ化〜

Last updated at Posted at 2021-05-09

概要

今回は基本統計量を確認し、基本的なヒストグラムと棒グラフにする方法です。
他にも「Learn Python In Seminar」のシリーズとして書いているので、よければご覧ください!

基本統計量

インポート

import pandas as pd
from matplotlib import pyplot as plt

基本統計量

Pandasのdescribe関数で基本統計量を確認可能

# 数値型以外の変数も合わせて見る場合はinclude='all'を渡す
DataFrame.decribe(include='all')

↓ 結果の例

            test1       test2 
count  198.000000  198.000000  # データの個数
mean     1.616162   23.961111  # 平均値
std      0.827289    8.399846  # 標準偏差
min      1.000000    9.000000  # 最小値
25%      1.000000   17.000000  # 第一四分位数
50%      1.000000   23.000000  # 第二四分位数(中央値)
75%      2.000000   30.375000  # 第三四分位数
max      3.000000   46.600000  # 最大値

中央値より平均値が大きい場合
→データの分布は値が小さい方向に偏っている可能性がある

データの可視化

DataFrameとSeries

DataFrame:横と縦に広がっているエクセルのような2次元データ
Series:1カラムを選択したデータ型であり、1列のみの1次元データ

type(data) # dataがDataFrameかSeriesか確認可能

インポート

import pandas as pd
from matplotlib import pyplot as plt

ヒストグラム

  • 度数分布
  • 棒の間に間隔がない
  • 量的データを確認
Series.plot.hist(title='ヒストグラムのタイトル')

plt.show()

棒グラフ

  • 独立したデータの比較
  • 棒の間に間隔がない
  • 質的データを確認

最頻値

Pandasライブラリのvalue_counts関数で最頻値が確認可能

Series.value_counts()

↓ 結果の例

Out[ 3 ] :  
FR     65
FF     52
4WD    31
RR     27
MR     23

グラフの描画

Pandasライブラリのplotメソッド

Series.plot.bar()
plt.show()

↓ 最頻値がないとエラー

data = pd.read_csv('data.csv')
Series = data['カラム名'].value_counts()
Series.plt.bar()
plt.show()

縦軸と横軸に名前

plt.xlabel('X軸につけたい名前')
plt.ylabel('Y軸につけたい名前')
0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?