LoginSignup
0
1

More than 1 year has passed since last update.

【データサイエンス備忘録】 DataFrame型の中身の確認 【python】

Last updated at Posted at 2021-01-14

head()メソッド

データの先頭5行を確認する。

DataFrameが代入された変数.head()
括弧内に数字を指定することで、指定した行数だけデータを表示することも可能。
DataFrameが代入された変数.head(10)とするとデータの先頭10行が表示される。

shape

読み込んだデータの行数と列数を調べる。

DataFrameが代入された変数.shape
行数だけを取り出したい場合はshape[0]、列数だけを取り出したい場合はshape[1]と記述する。

info()メソッド

DataFrameの各カラムのデータ型を確認する。

DataFrameが代入された変数.info()

describe()メソッド

数値型データの基本統計量の確認する。
pandasで読み込んだDataFrameのデータに対し、数値型データの基本統計量を表示するにはdescribe関数が便利である。

DataFrameを代入した変数.describe()

なお、出力結果の説明は以下のとおりである。

  • count:データの個数
  • mean:平均値
  • std:標準偏差
  • min:最小値
  • 25%:第一四分位数
  • 50%:第二四分位数(中央値)
  • 75%:第三四分位数
  • max:最大値

例えば、中央値より平均値が大きい場合は、データの分布は値が小さい方向に偏っている可能性がある等、慣れてくると、基本統計量を見るだけでデータ分布をイメージすることができるようになる。

文字列型データの基本統計量の確認
文字列型(object型)の変数の場合は、describe関数のオプションに(include=['O'])を指定することで確認できる。

※ゼロではなく、大文字のオーである。

DataFrameを代入した変数.describe(include=['O'])

出力結果の説明は以下のとおりである。

  • count : データの個数
  • unique : ユニークな要素の個数
  • top : 最も多く出現する要素(最頻値)
  • freq : topで返された要素の出現回数

dtypes

データの型を確認する。

DataFrameが代入された変数.dtypes

データ内の各列の値の型を参照することができる。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1