Pandas、統計量のメソッド一覧

Posted at 2024-02-26

はじめに

Pandas、統計量のメソッド一覧に関しての備忘録です。
コードを書き始めて1年以内の若輩者です😅
もし間違いがあれば、ご指摘いただけると助かります🙇

様々な計算、方法がある。
正しい選択の仕方から、統計の公式を理解してする必要がある。

押さえておくべき点

注意点

全ての数値の列の統計
※列を指定する→ df['列名']

選択してる部分の平均を出す。

df['年齢'].mean()
# 平均年齢

df['年齢'].max()  
# 年齢の最大値

df['年齢'].min()  
# 年齢の最小値

df['年齢'].sum()  
# 年齢の合計

選択したデータの標準偏差を計算。
データの比較をする際にバラツキ度合いを見るために使われる。

df['年齢'].std()  
# 年齢の標準偏差

選択したデータの分散を計算。
標準偏差に近い意味合い。

df['年齢'].var()  
# 年齢の分散

選択したデータの中央値を出す。
中央値は全体の数値のある中でのちょうど真ん中にあたるのが中央値。

df['年齢'].median()  
# 年齢の中央値

大事なのは覚えることではなく、触れておくことだなと感じる。そして実際にコードで書いてみて覚えていこうと思う。

[Pandasの基本～表形式データ・データ分析～初心者向けのDataFrameの操作入門！]（https://youtu.be/HYWQbAdsG6s?si=WRW_Ld81eWhSVSSP）