はじめに
Pandas、統計量のメソッド一覧に関しての備忘録です。
コードを書き始めて1年以内の若輩者です😅
もし間違いがあれば、ご指摘いただけると助かります🙇
🦁結論🦁
様々な計算、方法がある。
正しい選択の仕方から、統計の公式を理解してする必要がある。
押さえておくべき点
- 基本は列などをして指定して行う。
- Excelよりも早く処理ができる。(膨大なデータから計算するのに向いている。)
注意点
- なにも選択してない場合(列など)は数値部分、全てを計算してしまう。
- numeric_only=Trueを入れないと「warning」が出ることがある。
一覧
全ての数値の列の統計
※列を指定する→ df['列名']
df.mean()
選択してる部分の平均を出す。
df['年齢'].mean()
# 平均年齢
df.max
df['年齢'].max()
# 年齢の最大値
df.min
df['年齢'].min()
# 年齢の最小値
df.sum
df['年齢'].sum()
# 年齢の合計
df.std
選択したデータの標準偏差を計算。
データの比較をする際にバラツキ度合いを見るために使われる。
df['年齢'].std()
# 年齢の標準偏差
df.var
選択したデータの分散を計算。
標準偏差に近い意味合い。
df['年齢'].var()
# 年齢の分散
df.median
選択したデータの中央値を出す。
中央値は全体の数値のある中でのちょうど真ん中にあたるのが中央値。
df['年齢'].median()
# 年齢の中央値
まとめ✍️
大事なのは覚えることではなく、触れておくことだなと感じる。そして実際にコードで書いてみて覚えていこうと思う。
参考にした記事📕
[Pandasの基本~表形式データ・データ分析~初心者向けのDataFrameの操作入門!](https://youtu.be/HYWQbAdsG6s?si=WRW_Ld81eWhSVSSP)