More than 5 years have passed since last update.

初心者のためのpandas基礎②データ概要把握

Last updated at 2020-07-25Posted at 2020-07-07

pandasとは

Pythonにて、構造化データ（テーブル型のデータ）を扱うためのライブラリです。ファイルの読み込みやその後の加工・抽出処理などを簡単に行うことができ（SQL的な感覚で行うことができ）、機械学習などのデータの前処理で必須となるライブラリです。
他項目への目次はこちらになります。

pandasにpdという名前をつけてimportする

import pandas as pd

dataframeの件数を確認します。

print(len(dataframe))

dataframe.dtypes

dataframe.describe()

count(データの個数)、mean(平均)、std(標準偏差)、min(最小)、25% etc.(四分位値)、max(最大)を集計します。

dataframe.describe(include='O')

ゼロではなくオーです。count(データの個数)、unique(uniqueデータの数)、top(最も多く出現した要素の値)、freq(要素の数)を集計します。数値と合わせて表示したい場合はdescribe(include='all')として下さい。

欠損値の有無を確認します

dataframe.isnull().sum()

概要把握のための処理を一括して実施し、レポートとして出力してくれるライブラリが｢pandas-profiling｣です。これについては下記の記事を参照下さい。
★ 探索的データ分析の第一歩に便利なpandas-profilingの導入と概要

初心者にもわかるように、Pythonで機械学習を実施する際の必要な知識を簡便に記事としてまとめております。
目次はこちらになりますので、他の記事も参考にして頂けると幸いです。