3
1

More than 3 years have passed since last update.

高卒技能員の分かりやすい【Pandas】実践・データ確認方法

Last updated at Posted at 2020-04-15

pandasを用いたデータの確認方法まとめ

ざっくり見たい

データの形を確認

データの形(行数×列数).
print(〇〇.shape)

カラム(列名)を確認

print(〇〇.columns)

最初の5行だけ表示

5行表示させたい場合.
print(〇〇.head())

指定の行数、見たい場合はhead()の括弧内に数を入れる

10行表示させたい場合.
print(〇〇.head(10))

Kaggleのタイタニック:災害からの機械学習のtrain_dataでやってみると
image.png

詳細に見たい(行数・列数・要素数・型・メモリのチェック)

詳細に見たい場合はinfo()を使いましょう

情報を取得.
print(〇〇.info())

image.png
RangeIndex:(範囲)が891あるのに対し、Age,Cabin,Embarkedは少なく、データが欠損していることが分かります。

記述統計が知りたい(データの示す傾向や性質のチェック)

記述統計とは?:統計の手法のひとつで、収集したデータの平均や分散、標準偏差などを計算して分布を明らかし、データの示す傾向や性質を把握する手法のこと

データの記述統計にはdescribe()を使います
NaN値は除かれた状態で算出され、文字列はこの場合入りません

記述統計の算出(文字列以外).
print(〇〇.describe())

数値の記述統計は下記の形で表されます
count データ数
mean 平均
std 標準偏差
min 最小値
25% 第1四部位数
50% 第2四部位数(中央値)
75% 第3四部位数
max 最大値
image.png

カテゴリーの記述統計は
count
unique ユニーク(一意)なデータ数
top 最頻値
freq topの個数

タイムスタンプの記述統計
count
unique
top
freq
first 1番過去の値
last 1番最新の値

因みに、文字列の統計記述もやれます

記述統計の算出(文字列のみ).
print(〇〇.describe(include=['O'])) #大文字O 数字のゼロではないよ!
print(〇〇.describe(include=['object'])) #小文字の方はobjectとちゃんと打つ

文字列の記述統計の形はというと
count
unique
top
freq
image.png

(include='all')で、全ての記述統計を出すことも可能です

記述統計の算出(全部).
〇〇.describe(include='all')

image.png

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1