#pandasとは
Pythonにて、構造化データ(テーブル型のデータ)を扱うためのライブラリです。ファイルの読み込みやその後の加工・抽出処理などを簡単に行うことができ(SQL的な感覚で行うことができ)、機械学習などのデータの前処理で必須となるライブラリです。
他項目への目次はこちらになります。
#ライブラリインポート
pandas
にpd
という名前をつけてimport
する
import pandas as pd
#データ件数の確認
dataframe
の件数を確認します。
print(len(dataframe))
#データタイプの確認
dataframe.dtypes
#統計量(数値データ)表示
dataframe.describe()
count
(データの個数)、mean
(平均)、std
(標準偏差)、min
(最小)、25% etc.(四分位値)、max(最大)を集計します。
#統計量(カテゴリカルデータ)表示
dataframe.describe(include='O')
ゼロではなくオーです。count
(データの個数)、unique
(uniqueデータの数)、top
(最も多く出現した要素の値)、freq
(要素の数)を集計します。数値と合わせて表示したい場合はdescribe(include='all')
として下さい。
#欠損値の確認
欠損値の有無を確認します
dataframe.isnull().sum()
#pandas-profiling
概要把握のための処理を一括して実施し、レポートとして出力してくれるライブラリが「pandas-profiling」です。これについては下記の記事を参照下さい。
★ 探索的データ分析の第一歩に便利なpandas-profilingの導入と概要
#最後に
初心者にもわかるように、Pythonで機械学習を実施する際の必要な知識を簡便に記事としてまとめております。
目次はこちらになりますので、他の記事も参考にして頂けると幸いです。