はじめに
こんにちは!
技術・プログラミング初心者のTim(てぃむ)です。
最近は、比較的時間に余裕のある「夏休み」を利用してデータサイエンスやweb3などのこれまで触れてこなかった分野の技術を学んでいます。
この「夏休み」を利用して、当ブログの記事もどんどん発信していこうと思います!
↓過去のデータサイエンス入門の記事はこちらから
第1回「要素数、ユニーク数の確認」
第2回「合計値・代表値の算出」
本題
第3弾の今回は、データ集計を行う際に必要な「合計値・代表値の算出」について書いていこうと思います!
データ分析を始める最初のステップである「基本統計量」の確認は大切です。
最小値や最大値を把握する事で、データに含まれる値の範囲をすることができ、また、極端に大きい数字など本来存在し得ないデータのエラーを見つけることができます。
最小値の算出
df["カラム名"].min()
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["カラム名"].min()
print("商品の在庫数", df["在庫数"].min())
出力例
商品の在庫数 7
最大値の算出
df["カラム名"].max()
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["カラム名"].max()
print("商品の在庫数", df["在庫数"].max())
出力例
商品の在庫数 15
範囲の算出
データの範囲 = 最大値 - 最小値
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#最小値
min = df["在庫数"].min()
#最大値
max = df["在庫数"].max()
#データの範囲
print("在庫の変動幅", max - min)
出力例
在庫の変動幅 8
標準偏差の算出
df["カラム名"].std()
標準偏差は、「標準と言える範囲」を把握することにも有効です。
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["カラム名"].std()
print("年齢の標準偏差", df["年齢"].std())
出力例
年齢の標準偏差 9.898