LoginSignup
9
17

More than 3 years have passed since last update.

1. Pythonで学ぶ統計学 1-1. 基本統計量(Pandas)

Last updated at Posted at 2020-06-09

統計学には、さまざまな用語が使われます。
平均や偏差値など、ごく身近なものから、普段あまり馴染みのないものまで多々ありますが、
まずはじめに、基本的な用語について、その意味を正しく理解するところから始めたいと思います。
(原則として Google Colaboratory 上でコードの記述や結果の確認をおこないます)

⑴ 数値計算に使うライブラリをインポートする

import numpy as np
import pandas as pd

⑵ データセットを読み込む

df = pd.read_csv("https://raw.githubusercontent.com/karaage0703/machine-learning-study/master/data/karaage_data.csv")

pandasのread_csv関数を使って("ファイル名")で指定したcsvファイルを読み込み、変数dfに格納しています。

⑶ データの中身を確認する

df.head()

head関数によって変数dfに格納されたデータの先頭5行分だけが表示されます。
001_001_001.PNG

xとyという2つの変量からなるデータであることがわかります。

⑷ 基本統計量を算出する

df.describe()

pandasのdescribe関数によって基本統計量の一覧表が取得されます。
001_001_002.PNG

さて、統計量という用語ですが、データを集計した値のことをそう呼びます。
統計量を見ることによって、標本の特徴を知ることができます。
基本統計量として示された8つの統計量、それぞれの用語の意味を確認しておきます。

統計量 変量x 変量y 用語の意味
count 標本数 6 6 n=6すなわち全部で6行分のデータが入っている
mean 平均値 14.33 3.33 いわゆる代表値(標本を代表する値)として使われる
std 標準偏差 16.01 1.51 standard deviationの略で、データがどの程度ばらついているかを表す統計量の一つ
min 最小値 1.00 2.00 その変量の中で最も小さい値
25% 第1四分位数 2.75 2.25 データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の1番目にあたる値
50% 第2四分位数 7.50 3.00 データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の2番目にあたる値
75% 第3四分位数 23.50 3.75 データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の3番目にあたる値
max 最大値 40.00 6.00 その変量の中で最も大きい値

⑸ 基本統計量を個別に算出する

まず、平均を計算してみます。

df.describe().loc['mean']

001_001_003.PNG

つづけて標準偏差、第1四分位数を、loc['xxx']にその統計量を指定して計算します。

df.describe().loc['std']

001_001_004.PNG

df.describe().loc['25%']

001_001_005.PNG


以上、Pandasを用いて、基本的な統計量を見てきました。
次いで、今度はNumpyをつかって各種統計量を計算してみて、その統計量の大もとの計算方法や特徴について考察します。

9
17
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
17