概要
今回は基本統計量を確認し、基本的なヒストグラムと棒グラフにする方法です。
他にも「Learn Python In Seminar」のシリーズとして書いているので、よければご覧ください!
基本統計量
インポート
import pandas as pd
from matplotlib import pyplot as plt
基本統計量
Pandasのdescribe関数で基本統計量を確認可能
# 数値型以外の変数も合わせて見る場合はinclude='all'を渡す
DataFrame.decribe(include='all')
↓ 結果の例
test1 test2
count 198.000000 198.000000 # データの個数
mean 1.616162 23.961111 # 平均値
std 0.827289 8.399846 # 標準偏差
min 1.000000 9.000000 # 最小値
25% 1.000000 17.000000 # 第一四分位数
50% 1.000000 23.000000 # 第二四分位数(中央値)
75% 2.000000 30.375000 # 第三四分位数
max 3.000000 46.600000 # 最大値
中央値より平均値が大きい場合
→データの分布は値が小さい方向に偏っている可能性がある
データの可視化
DataFrameとSeries
DataFrame:横と縦に広がっているエクセルのような2次元データ
Series:1カラムを選択したデータ型であり、1列のみの1次元データ
type(data) # dataがDataFrameかSeriesか確認可能
インポート
import pandas as pd
from matplotlib import pyplot as plt
ヒストグラム
- 度数分布
- 棒の間に間隔がない
- 量的データを確認
Series.plot.hist(title='ヒストグラムのタイトル')
plt.show()
棒グラフ
- 独立したデータの比較
- 棒の間に間隔がない
- 質的データを確認
最頻値
Pandasライブラリのvalue_counts関数で最頻値が確認可能
Series.value_counts()
↓ 結果の例
Out[ 3 ] :
FR 65
FF 52
4WD 31
RR 27
MR 23
グラフの描画
Pandasライブラリのplotメソッド
Series.plot.bar()
plt.show()
↓ 最頻値がないとエラー
data = pd.read_csv('data.csv')
Series = data['カラム名'].value_counts()
Series.plt.bar()
plt.show()
縦軸と横軸に名前
plt.xlabel('X軸につけたい名前')
plt.ylabel('Y軸につけたい名前')