LoginSignup
0
2

More than 3 years have passed since last update.

初心者のためのpandas基礎②データ概要把握

Last updated at Posted at 2020-07-07

pandasとは

Pythonにて、構造化データ(テーブル型のデータ)を扱うためのライブラリです。ファイルの読み込みやその後の加工・抽出処理などを簡単に行うことができ(SQL的な感覚で行うことができ)、機械学習などのデータの前処理で必須となるライブラリです。
他項目への目次はこちらになります。

ライブラリインポート

pandaspdという名前をつけてimportする

import pandas as pd

データ件数の確認

dataframeの件数を確認します。

print(len(dataframe))

データタイプの確認

dataframe.dtypes

統計量(数値データ)表示

dataframe.describe()

count(データの個数)、mean(平均)、std(標準偏差)、min(最小)、25% etc.(四分位値)、max(最大)を集計します。

統計量(カテゴリカルデータ)表示

dataframe.describe(include='O')

ゼロではなくオーです。count(データの個数)、unique(uniqueデータの数)、top(最も多く出現した要素の値)、freq(要素の数)を集計します。数値と合わせて表示したい場合はdescribe(include='all')として下さい。

欠損値の確認

欠損値の有無を確認します

dataframe.isnull().sum()

pandas-profiling

概要把握のための処理を一括して実施し、レポートとして出力してくれるライブラリが「pandas-profiling」です。これについては下記の記事を参照下さい。
探索的データ分析の第一歩に便利なpandas-profilingの導入と概要

最後に

初心者にもわかるように、Pythonで機械学習を実施する際の必要な知識を簡便に記事としてまとめております。
目次はこちらになりますので、他の記事も参考にして頂けると幸いです。

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2