More than 5 years have passed since last update.

Pandasデータフレームの名義変数で構成される列の内容を知る（表現）する方法。

Last updated at 2018-07-04Posted at 2018-05-31

名義変数のPandasデータフレームの列の内容を知る（表現）する方法。
こちらも意外とすぐ検索で見つからないためメモ。
(3、４を7/4/2018に追記）

１、df[something].describe()
データの数、ユニークバリューの数等はわかる。
名義変数の種類や頻度はわからない。
欠損数もわからない。

2、df[something].value_counts()
私が知りたい、使いたいのはどちらかというとこちら。

３、上記の２でうまくいっていると思っていたことが、うまくいっていなかった。
ある列が名義変数（２値変数,例えば0or1）で示されている場合、以下で把握することができると思っていたが、それをfor文で回すと、値として格納されている、0or1がどちらにくるのか予想できないことが判明。
df[something].value_counts()[0]
df[something].value_counts()[１]

よって、以下のように値を指定して、要素数をカウントをすることとした。
df[something][df[something] == 0].count()
df[something][df[something] == 1].count()

４、おまけ。そうかCount()使えば一貫したコードになると考え、Null値も同様の方法でカウントしようとしたが、要素として格納されているNan値はCount()することができない。実行すると0が帰ってきてしまう。よって、Nanのカウントは以下のように記載した。ややこしい。
df[something].isnull().sum()

参考サイト
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.html
https://note.nkmk.me/python-pandas-count-condition/

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up