LoginSignup
0
0

More than 1 year has passed since last update.

【初心者が教える超入門】Pythonによるデータサイエンス③(最小値、最大値、標準偏差の算出)

Posted at

はじめに

こんにちは!
技術・プログラミング初心者のTim(てぃむ)です。
最近は、比較的時間に余裕のある「夏休み」を利用してデータサイエンスやweb3などのこれまで触れてこなかった分野の技術を学んでいます。
この「夏休み」を利用して、当ブログの記事もどんどん発信していこうと思います!

↓過去のデータサイエンス入門の記事はこちらから
第1回「要素数、ユニーク数の確認
第2回「合計値・代表値の算出

本題

第3弾の今回は、データ集計を行う際に必要な「合計値・代表値の算出」について書いていこうと思います!

データ分析を始める最初のステップである「基本統計量」の確認は大切です。
最小値や最大値を把握する事で、データに含まれる値の範囲をすることができ、また、極端に大きい数字など本来存在し得ないデータのエラーを見つけることができます。

最小値の算出

df["カラム名"].min()

import pandas as pd

#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')

#df["カラム名"].min()
print("商品の在庫数", df["在庫数"].min())

出力例

商品の在庫数 7

最大値の算出

df["カラム名"].max()

import pandas as pd

#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')

#df["カラム名"].max()
print("商品の在庫数", df["在庫数"].max())

出力例

商品の在庫数 15

範囲の算出

データの範囲 = 最大値 - 最小値

import pandas as pd

#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')

#最小値
min = df["在庫数"].min()
#最大値
max = df["在庫数"].max()

#データの範囲
print("在庫の変動幅", max - min)

出力例

在庫の変動幅 8

標準偏差の算出

df["カラム名"].std()

標準偏差は、「標準と言える範囲」を把握することにも有効です。

import pandas as pd

#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')

#df["カラム名"].std()
print("年齢の標準偏差", df["年齢"].std())

出力例

年齢の標準偏差 9.898
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0