More than 5 years have passed since last update.

高卒技能員の分かりやすい【Pandas】実践・データ確認方法

Last updated at 2020-04-15Posted at 2020-04-15

pandasを用いたデータの確認方法まとめ

ざっくり見たい

データの形を確認

データの形(行数×列数).

print(〇〇.shape)

カラム(列名)を確認

print(〇〇.columns)

最初の5行だけ表示

5行表示させたい場合.

print(〇〇.head())

指定の行数、見たい場合はhead()の括弧内に数を入れる

10行表示させたい場合.

print(〇〇.head(10))

Kaggleのタイタニック：災害からの機械学習のtrain_dataでやってみると

詳細に見たい場合はinfo()を使いましょう

情報を取得.

print(〇〇.info())

RangeIndex:(範囲)が891あるのに対し、Age,Cabin,Embarkedは少なく、データが欠損していることが分かります。

記述統計とは？

:統計の手法のひとつで、収集したデータの平均や分散、標準偏差などを計算して分布を明らかし、データの示す傾向や性質を把握する手法のこと

データの記述統計にはdescribe()を使います
NaN値は除かれた状態で算出され、文字列はこの場合入りません

記述統計の算出(文字列以外).

print(〇〇.describe())

数値の記述統計は下記の形で表されます
count データ数
mean 平均
std 標準偏差
min 最小値
25% 第1四部位数
50% 第2四部位数(中央値)
75% 第3四部位数
max 最大値

カテゴリーの記述統計は
count
unique ユニーク(一意)なデータ数
top 最頻値
freq topの個数

タイムスタンプの記述統計
count
unique
top
freq
first 1番過去の値
last 1番最新の値

因みに、文字列の統計記述もやれます

記述統計の算出(文字列のみ).

print(〇〇.describe(include=['O'])) #大文字O　数字のゼロではないよ！
print(〇〇.describe(include=['object']))　#小文字の方はobjectとちゃんと打つ

文字列の記述統計の形はというと
count
unique
top
freq

(include='all')で、全ての記述統計を出すことも可能です

記述統計の算出(全部).

〇〇.describe(include='all')