すっごく基本的なところからわからないので一つ一つ調べていくのです。
describeを出力
>>> import pandas as pd
>>> data = pd.read_csv("data.csv", names=['X', 'Y', 'Z'])
>>> data.describe()
X Y Z
count 7.000000 7.000000 7.000000
mean 42.571429 -8.571429 98.714286
std 42.968427 14.920424 8.440266
min 0.000000 -40.000000 88.000000
25% 5.000000 -10.000000 92.000000
50% 33.000000 -5.000000 100.000000
75% 77.500000 0.000000 104.500000
max 100.000000 5.000000 110.000000
データの内容はいったん気にしないでください。
各項目の意味
項目名 | 意味 |
---|---|
count | そのカラムの件数 |
mean | 平均 |
std | 標準偏差 |
min | 最小値 |
25% | 第一四分位数 |
50% | 第二四分位数 |
75% | 第三四分位数 |
max | 最大値 |
・・・初心者な僕は標準偏差と四分位数とやらがわかりませんでした。
というわけで、
標準偏差については、
https://markezine.jp/article/detail/15763
四分位数については、
https://mathtrain.jp/shibuni
を参考に理解することができました。
初めてやる領域ではこういった一つ一つを調べる事から始めるため、
最初はかなり進みが悪くて面白くないかもしれませんが、
だんだんと調べる単語やものが減ってくるのでそこまでは本人の踏ん張り、頑張りが大事なんだと思います。
そんな感じです。