前記事からの続きです。
前の記事はこちら
利用するデータは説明のため以下のデータを利用します。
今回AMZNの値はすべて数字を入れています。
import pandas as pd
df = pd.DataFrame({'GOOG':[158.56,157.21,167.31,168.42,167.19,165.29,168.83],
'AMZN':[186.61,181.96,184.76,185.13,186.33,187.97,188.07]
})
行と列の値の関係が見やすいように、df.head(7)の実行結果を表示させます。
実行結果
GOOG AMZN
0 158.56 186.61
1 157.21 181.96
2 167.31 184.76
3 168.42 185.13
4 167.19 186.33
5 165.29 187.97
6 168.83 188.07
データの集計と統計
1. df.mean()
各数値列の平均値を計算します。
print(df.mean())
実行結果
GOOG 164.687143
AMZN 185.832857
dtype: float64
2. df.std()
各数値列の標準偏差を計算します。
print(df.std())
実行結果
GOOG 4.796772
AMZN 2.123964
dtype: float64
3. df.sum()
各数値列の合計を計算します。
print(df.sum())
実行結果
GOOG 1152.81
AMZN 1300.83
dtype: float64
4. df.count()
各列の非欠損値の数を数えます。
print(df.count())
実行結果
GOOG 7
AMZN 7
dtype: int64