統計学には、さまざまな用語が使われます。
平均や偏差値など、ごく身近なものから、普段あまり馴染みのないものまで多々ありますが、
まずはじめに、基本的な用語について、その意味を正しく理解するところから始めたいと思います。
(原則として Google Colaboratory 上でコードの記述や結果の確認をおこないます)
####⑴ 数値計算に使うライブラリをインポートする
import numpy as np
import pandas as pd
####⑵ データセットを読み込む
df = pd.read_csv("https://raw.githubusercontent.com/karaage0703/machine-learning-study/master/data/karaage_data.csv")
pandasのread_csv
関数を使って("ファイル名")で指定したcsvファイルを読み込み、変数dfに格納しています。
####⑶ データの中身を確認する
df.head()
head
関数によって変数dfに格納されたデータの先頭5行分だけが表示されます。
xとyという2つの変量からなるデータであることがわかります。
####⑷ 基本統計量を算出する
df.describe()
pandasのdescribe
関数によって基本統計量の一覧表が取得されます。
さて、統計量という用語ですが、データを集計した値のことをそう呼びます。
統計量を見ることによって、標本の特徴を知ることができます。
基本統計量として示された8つの統計量、それぞれの用語の意味を確認しておきます。
統計量 | 変量x | 変量y | 用語の意味 | |
---|---|---|---|---|
count | 標本数 | 6 | 6 | n=6すなわち全部で6行分のデータが入っている |
mean | 平均値 | 14.33 | 3.33 | いわゆる代表値(標本を代表する値)として使われる |
std | 標準偏差 | 16.01 | 1.51 | standard deviationの略で、データがどの程度ばらついているかを表す統計量の一つ |
min | 最小値 | 1.00 | 2.00 | その変量の中で最も小さい値 |
25% | 第1四分位数 | 2.75 | 2.25 | データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の1番目にあたる値 |
50% | 第2四分位数 | 7.50 | 3.00 | データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の2番目にあたる値 |
75% | 第3四分位数 | 23.50 | 3.75 | データを小さい順に並び替えたとき、データ個数を小さい方から数えて4分の3番目にあたる値 |
max | 最大値 | 40.00 | 6.00 | その変量の中で最も大きい値 |
####⑸ 基本統計量を個別に算出する
まず、平均を計算してみます。
df.describe().loc['mean']
つづけて標準偏差、第1四分位数を、loc['xxx']
にその統計量を指定して計算します。
df.describe().loc['std']
df.describe().loc['25%']
以上、Pandasを用いて、基本的な統計量を見てきました。
次いで、今度はNumpyをつかって各種統計量を計算してみて、その統計量の大もとの計算方法や特徴について考察します。