Pandasとは
データ解析を容易にする機能を提供する解析ライブラリであり、Pythonと組み合わせれば、データ分析でできないことはないと言っても過言ではないほど優れたデータ分析を支援するためのライブラリである。
表同士をくっつけたり、エクセル操作など日常業務の効率化から人工知能開発まで幅広く実用されている。
また、データフレームなどの独自のデータ構造が提供されており、ピボットテーブル、groupby、ソートなどの集計処理や、matplotlibと連携した可視化などさまざまな処理をすることが可能である。
Pandasインポート方法
ターミナル
$ pip install pandas
import pandas as pd
Pandasのデータ形式
Series
└ 一次元の配列。一列しかない行列とみなしても良い。
Dataframe
└ 行と列を持った配列データであり、seriesを複数まとめたもの
Panel
└ 3次元の配列データ。
Dataframe
※ データ分析を極めたいため、seriesの記載は省略する。
# 2列3行
import pandas as pd
df = pd.DataFrame([[1, 10], [2, 20], [3, 30]], columns=['col1', 'col2'])
# col1 col2
# 0 1 10
# 1 2 20
# 2 3 30
レコード数
len(df)
# 3
要素数
df.size
# 6