More than 5 years have passed since last update.

【Python】pandasのdescribeで出力される項目の意味について【データ分析】

Posted at 2017-12-20

すっごく基本的なところからわからないので一つ一つ調べていくのです。

describeを出力

>>> import pandas as pd
>>> data = pd.read_csv("data.csv", names=['X', 'Y', 'Z'])
>>> data.describe()
                X          Y           Z
count    7.000000   7.000000    7.000000
mean    42.571429  -8.571429   98.714286
std     42.968427  14.920424    8.440266
min      0.000000 -40.000000   88.000000
25%      5.000000 -10.000000   92.000000
50%     33.000000  -5.000000  100.000000
75%     77.500000   0.000000  104.500000
max    100.000000   5.000000  110.000000

データの内容はいったん気にしないでください。

各項目の意味

項目名	意味
count	そのカラムの件数
mean	平均
std	標準偏差
min	最小値
25%	第一四分位数
50%	第二四分位数
75%	第三四分位数
max	最大値

・・・初心者な僕は標準偏差と四分位数とやらがわかりませんでした。

というわけで、
標準偏差については、
https://markezine.jp/article/detail/15763

四分位数については、
https://mathtrain.jp/shibuni

を参考に理解することができました。

初めてやる領域ではこういった一つ一つを調べる事から始めるため、
最初はかなり進みが悪くて面白くないかもしれませんが、
だんだんと調べる単語やものが減ってくるのでそこまでは本人の踏ん張り、頑張りが大事なんだと思います。

そんな感じです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up