pandasのSeries、DataFrame
ITエンジニアのための機械学習理論入門をやり始め、そっこーで
DataFrameが何を意味しているか分からず、嵌りました。
調べた結果です。ついでにSeriesも
pandas 0.17.1 documentationの公式ドキュメントより
The two primary data structures of pandas, Series (1-dimensional) and DataFrame (2-dimensional), handle the vast majority of typical use cases in finance, statistics, social science, and many areas of engineering. For R users, DataFrame provides everything that R’s data.frame provides and much more.
簡易訳
pandasは二つの主要なデータ構造がある。
Seriesが1次元
DataFrameが2次元
これらは様々な分野(金融、統計...)で使われる
R使用者の観点からだと、DataFrameはRのdata.frameが提供する以上のものを提供する。
使い方
# 数値計算ライブラリインポート
import numpy
# データ分析ライブラリからSeriesとDataFrameをインポート
from pandas import Series, DataFrame
# Series
# data仮引数 : データ。array-like, dict, or scalar value
# index仮引数 : データの添え字。array-like or Index (1d)
# dtype仮引数 : データタイプ。numpy.dtype or None
# copy仮引数 : コピー。デフォルトはfalse
# name仮引数 : 結果につける名前
# 1
print(Series(data=[0,1]))
# 2
print(Series(data=[2,3], index=['x', 'y'], name='value'))
# DataFrame
# data仮引数 : データ ( numpy ndarray (structured or homogeneous), dict, or DataFrame)
# index仮引数 : 要素のインデックス。デフォルトは添え字配列みたいに数字
# columns仮引数 : 2次元のインデックス。デフォルトは数字
# dtype仮引数 : データタイプ。dtype, default None
# copy仮引数 : コピー。デフォルトはfalse。
# 3
print(DataFrame(numpy.array([[0,0],[1,1]])))
# 4
print(DataFrame(numpy.array([[0,0],[1,1]]), index=['a', 'b']))
# 5
print(DataFrame(numpy.array([[0,0],[1,1]]), index=['a', 'b'], columns=['x', 'y']))
結果
# 1
0 0
1 1
dtype: int64
# 2
x 2
y 3
Name: value, dtype: int64
# 3
0 1
0 0 0
1 1 1
# 4
0 1
a 0 0
b 1 1
# 5
x y
a 0 0
b 1 1