pandasを用いたデータの確認方法まとめ
ざっくり見たい
データの形を確認
print(〇〇.shape)
カラム(列名)を確認
print(〇〇.columns)
最初の5行だけ表示
print(〇〇.head())
指定の行数、見たい場合はhead()の括弧内に数を入れる
print(〇〇.head(10))
Kaggleのタイタニック:災害からの機械学習のtrain_dataでやってみると
#詳細に見たい(行数・列数・要素数・型・メモリのチェック)
詳細に見たい場合はinfo()を使いましょう
print(〇〇.info())
RangeIndex:(範囲)が891あるのに対し、Age,Cabin,Embarkedは少なく、データが欠損していることが分かります。
#記述統計が知りたい(データの示す傾向や性質のチェック)
記述統計とは?:統計の手法のひとつで、収集したデータの平均や分散、標準偏差などを計算して分布を明らかし、データの示す傾向や性質を把握する手法のこと
データの記述統計にはdescribe()を使います
NaN値は除かれた状態で算出され、文字列はこの場合入りません
記述統計の算出(文字列以外).
print(〇〇.describe())
数値の記述統計は下記の形で表されます
count データ数
mean 平均
std 標準偏差
min 最小値
25% 第1四部位数
50% 第2四部位数(中央値)
75% 第3四部位数
max 最大値
カテゴリーの記述統計は
count
unique ユニーク(一意)なデータ数
top 最頻値
freq topの個数
タイムスタンプの記述統計
count
unique
top
freq
first 1番過去の値
last 1番最新の値
因みに、文字列の統計記述もやれます
記述統計の算出(文字列のみ).
print(〇〇.describe(include=['O'])) #大文字O 数字のゼロではないよ!
print(〇〇.describe(include=['object'])) #小文字の方はobjectとちゃんと打つ
文字列の記述統計の形はというと
count
unique
top
freq
(include='all')で、全ての記述統計を出すことも可能です
記述統計の算出(全部).
〇〇.describe(include='all')
データの記述統計にはdescribe()を使います
NaN値は除かれた状態で算出され、文字列はこの場合入りません
print(〇〇.describe())
数値の記述統計は下記の形で表されます
count データ数
mean 平均
std 標準偏差
min 最小値
25% 第1四部位数
50% 第2四部位数(中央値)
75% 第3四部位数
max 最大値
カテゴリーの記述統計は
count
unique ユニーク(一意)なデータ数
top 最頻値
freq topの個数
タイムスタンプの記述統計
count
unique
top
freq
first 1番過去の値
last 1番最新の値
因みに、文字列の統計記述もやれます
print(〇〇.describe(include=['O'])) #大文字O 数字のゼロではないよ!
print(〇〇.describe(include=['object'])) #小文字の方はobjectとちゃんと打つ
文字列の記述統計の形はというと
count
unique
top
freq
(include='all')で、全ての記述統計を出すことも可能です
〇〇.describe(include='all')