はじめに
こんにちは!
技術・プログラミング初心者のTim(てぃむ)です。
自身で学び始めて分かったこと・習得したこと等を初心者ならではの視点でお伝えできればなという思いで発信しております!
記事をご一読いただいた上で、意見/指摘/アドバイス等々いただけるととても嬉しいです!
よろしくお願いいたします。
本題
前回は「要素数、ユニーク数の確認」を行いました。
第2弾の今回は、データ集計を行う際に必要な「合計値・代表値の算出」について書いていこうと思います!
また、随時投稿していきますのでフォロー等していただけるとありがたいです。
合計値の算出
df["カラム名"].sum()
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["カラム名"].sum()
print("生徒数の合計値", df["生徒数"].sum())
出力例
生徒数の合計値 167
平均値の算出
df["カラム名"].mean()
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["カラム名"].mean()
print("数学テストの点数の平均値", df["数学テストの点数"].mean())
出力例
数学テストの点数の平均値 64
中央値の算出
df["カラム名"].median()
ユニーク数とは、特定の列に含まれる要素の「種類」の数を表します。
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["カラム名"].median()
print("数学テストの点数の中央値", df["数学テストの点数"].median())
出力例
数学テストの点数の中央値 58
最頻値の算出
df["カラム名"].mode()[0]
import pandas as pd
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#df["カラム名"].mode()[0]
print("数学テストの点数の最頻値", df["数学テストの点数"].mode()[0])
出力例
数学テストの点数の最頻値 56
特定の列のヒストグラムの描写
df["カラム名"].hist()
plt.show()
平均値・中央値・最頻値の中から、どの値を代表値として扱うかを考える際に、ヒストグラムを描写し可視化することで、代表値を選定するための一つの手段にすることができます。
import pandas as pd
import matplotlib.pyplot as plt
#csvファイルの読み込み。test.csvの箇所には各自のcsvファイル名を記入。
df = pd.read_csv('test.csv')
#平均値、中央値、最頻値の確認
print("数学テストの点数の平均値", df["数学テストの点数"].mean())
print("数学テストの点数の中央値", df["数学テストの点数"].median())
print("数学テストの点数の最頻値", df["数学テストの点数"].mode()[0])
#ヒストグラムの描写
df["数学テストの点数"].hist()
plt.show()
出力例
数学テストの点数の平均値 64
数学テストの点数の中央値 58
数学テストの点数の最頻値 56
参考情報
私自身、学習していく中で似たような意味を持っているように感じる「列名」と「カラム名」の違いについて気になったので、こちらに参考記事を掲載しておきます。
カラム名とは