Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
624
Help us understand the problem. What is going on with this article?
@tkazusa

10分でPandasを学ぶ

More than 5 years have passed since last update.

"pandas 0.15.2 documentation"の中に、"10 Minutes to pandas"なんてのがあったので、覗いてみたらかなり頭の中が整理された。
まじめにやると10分じゃ終わらんが、便利そうなところだけかいつまんでメモ。

まずはPandasとNumpyのインポート。

#import liblaries
import pandas as pd
import numpy as np

DataFrameを作る

DataFrameの作成方法も幾つかあるので、その整理。
まずは、DataFrameをnumpyで行列を作り、インデックスとラベルを貼り付けるパターン。

インデックスの作成。

#Create a index
dates = pd.date_range("20130101", periods=6)
dates

<class 'pandas.tseries.index.DatetimeIndex'>
[2013-01-01, ..., 2013-01-06]
Length: 6, Freq: D, Timezone: None

DataFrameを作成し、インデックスを貼り付ける。

#Create a DatFrame
df = pd.DataFrame(np.random.randn(6,4),index = dates, columns = list("ABCD"))
df

    A   B   C   D
2013-01-01  0.705624    -0.793903   0.843425    0.672602
2013-01-02  -1.211129   2.077101    -1.795861   0.028060
2013-01-03  0.706086    0.385631    0.967568    0.271894
2013-01-04  2.152279    -0.493576   1.184289    -1.193300
2013-01-05  0.455767    0.787551    0.239406    1.627586
2013-01-06  -0.639162   -0.052620   0.288010    -2.205777


今度は、ラベル別にSeriesを作るイメージでDataFrameを作成。
こっちだと、ラベルごとに別々のdtypesを持てる

df2 = pd.DataFrame({ 'A' : 1.,
                     'B' : pd.Timestamp('20130102'),
                     'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                     'D' : np.array([3] * 4,dtype='int32'),
                     'E' : pd.Categorical(["test","train","test","train"]),
                     'F' : 'foo' })
df2

    A   B   C   D   E   F
0   1   2013-01-02  1   3   test    foo
1   1   2013-01-02  1   3   train   foo
2   1   2013-01-02  1   3   test    foo
3   1   2013-01-02  1   3   train   foo


df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object


DataFrameの参照

次は欲しい形でデータを見る方法。

インデックスだけ、columnsだけ、numpyのデータだけ表示。

df.index

<class 'pandas.tseries.index.DatetimeIndex'>
[2013-01-01, ..., 2013-01-06]
Length: 6, Freq: D, Timezone: None


df.columns

Index([u'A', u'B', u'C', u'D'], dtype='object')

df.values

array([[ 0.705624  , -0.79390348,  0.84342517,  0.67260162],
       [-1.21112884,  2.0771009 , -1.79586146,  0.02806019],
       [ 0.70608621,  0.38563092,  0.9675681 ,  0.27189394],
       [ 2.15227868, -0.49357565,  1.18428903, -1.19329976],
       [ 0.45576744,  0.78755094,  0.23940583,  1.62758649],
       [-0.63916155, -0.05261954,  0.28800958, -2.20577674]])

統計量の概要をまとめて表示、これ便利。

df.describe()

    A   B   C   D
count   6.000000    6.000000    6.000000    6.000000
mean    0.361578    0.318364    0.287806    -0.133156
std     1.177066    1.034585    1.087978    1.368150
min     -1.211129   -0.793903   -1.795861   -2.205777
25%     -0.365429   -0.383337   0.251557    -0.887960
50%     0.580696    0.166506    0.565717    0.149977
75%     0.705971    0.687071    0.936532    0.572425
max     2.152279    2.077101    1.184289    1.627586

DataFrameの行列を反転。

df.T

2013-01-01 00:00:00     2013-01-02 00:00:00     2013-01-03 00:00:00     2013-01-04 00:00:00     2013-01-05 00:00:00     2013-01-06 00:00:00
A   0.705624    -1.211129   0.706086    2.152279    0.455767    -0.639162
B   -0.793903   2.077101    0.385631    -0.493576   0.787551    -0.052620
C   0.843425    -1.795861   0.967568    1.184289    0.239406    0.288010
D   0.672602    0.028060    0.271894    -1.193300   1.627586    -2.205777

任意の軸でソートをかける。
例えば、ラベルを降順でソート。

df.sort_index(axis=1, ascending=False)

    D   C   B   A
2013-01-01  0.672602    0.843425    -0.793903   0.705624
2013-01-02  0.028060    -1.795861   2.077101    -1.211129
2013-01-03  0.271894    0.967568    0.385631    0.706086
2013-01-04  -1.193300   1.184289    -0.493576   2.152279
2013-01-05  1.627586    0.239406    0.787551    0.455767
2013-01-06  -2.205777   0.288010    -0.052620   -0.639162

次はラベル「B」の値で昇順で。


df.sort(columns='B')

A   B   C   D
2013-01-01  0.705624    -0.793903   0.843425    0.672602
2013-01-04  2.152279    -0.493576   1.184289    -1.193300
2013-01-06  -0.639162   -0.052620   0.288010    -2.205777
2013-01-03  0.706086    0.385631    0.967568    0.271894
2013-01-05  0.455767    0.787551    0.239406    1.627586
2013-01-02  -1.211129   2.077101    -1.795861   0.028060

データを選び出す

色んな観点からデータを抜き出してくることが出来ます。
例えば、インデックスの一部だけとか。

ラベルとインデックスを両方指定してデータの抜き出し。

df.loc['20130102':'20130104',['A','B']]

    A   B
2013-01-02  -1.211129   2.077101
2013-01-03  0.706086    0.385631
2013-01-04  2.152279    -0.493576

任意のラベルでグループ作れる。そのままデータ操作できる。


#Creating a DataFrame
df = pd.DataFrame({"A" : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   "B" : ['one', 'one', 'two', 'three','two', 'two', 'one', 'three'],
                   "C" : np.random.randn(8),
                   "D" : np.random.randn(8)})

df

    A   B   C   D
0   foo     one     1.130975    1.235940
1   bar     one     -0.140004   -2.714958
2   foo     two     1.526578    -0.165415
3   bar     three   -1.049092   -0.037484
4   foo     two     -1.182303   0.288754
5   bar     two     0.530652    1.204125
6   foo     one     0.678477    -0.273343
7   foo     three   0.929624    0.169822

df.sort(columns='B')

A   B   C   D
2013-01-01  0.705624    -0.793903   0.843425    0.672602
2013-01-04  2.152279    -0.493576   1.184289    -1.193300
2013-01-06  -0.639162   -0.052620   0.288010    -2.205777
2013-01-03  0.706086    0.385631    0.967568    0.271894
2013-01-05  0.455767    0.787551    0.239406    1.627586
2013-01-02  -1.211129   2.077101    -1.795861   0.028060

データを選び出す

色んな観点からデータを抜き出してくることが出来ます。
例えば、インデックスの一部だけとか。

ラベルとインデックスを両方指定してデータの抜き出し。

df.loc['20130102':'20130104',['A','B']]

    A   B
2013-01-02  -1.211129   2.077101
2013-01-03  0.706086    0.385631
2013-01-04  2.152279    -0.493576

任意のラベルでグループ作れる。そのままデータ操作できる。

#Creating a DataFrame
df = pd.DataFrame({"A" : ['foo', 'bar', 'foo', 'bar','foo', 'bar', 'foo', 'foo'],
                   "B" : ['one', 'one', 'two', 'three','two', 'two', 'one', 'three'],
                   "C" : np.random.randn(8),
                   "D" : np.random.randn(8)})
df

    A   B   C   D
0   foo     one     1.130975    1.235940
1   bar     one     -0.140004   -2.714958
2   foo     two     1.526578    -0.165415
3   bar     three   -1.049092   -0.037484
4   foo     two     -1.182303   0.288754
5   bar     two     0.530652    1.204125
6   foo     one     0.678477    -0.273343
7   foo     three   0.929624    0.169822

#Grouping and then calculate sum
df.groupby('A').sum()

    C   D
A       
bar     -0.658445   -1.548317
foo     3.083350    1.255758


ピボットテーブルの作成

ピボットテーブルにするためのDataFrameの作成。

#Create a DataFrame
df = pd.DataFrame({'A' : ['one', 'one', 'two', 'three'] * 3,
                   'B' : ['A', 'B', 'C'] * 4,
                   'C' : ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] *2,
                   'D' : np.random.randn(12),
                   'E' : np.random.randn(12)})
df
A   B   C   D   E
0   one     A   foo     0.575699    -1.669032
1   one     B   foo     0.592889    -2.526196
2   two     C   foo     -2.229949   -0.703339
3   three   A   bar     0.801380    -1.638983
4   one     B   bar     -0.135691   -0.302586
5   one     C   bar     0.317401    1.169608
6   two     A   foo     0.064460    -0.109437
7   three   B   foo     -0.605017   1.043246
8   one     C   foo     -0.365220   0.850535
9   one     A   bar     1.033552    0.226002
10  two     B   bar     -0.260542   0.352249
11  three   C   bar     0.518531    1.407827

割りと簡単にピボットテーブルに変換できる。

pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

    C   bar     foo
A   B       
one     A   1.033552    0.575699
B   -0.135691   0.592889
C   0.317401    -0.365220
three   A   0.801380    NaN
B   NaN     -0.605017
C   0.518531    NaN
two     A   NaN     0.064460
B   -0.260542   NaN
C   NaN     -2.229949

まとめ

一度ざっくり眺めておけば、処理に直面したときに返ってこれそうで、すごくありがたいよね。

参考

pandas 0.15.2 documentation
http://pandas.pydata.org/pandas-docs/stable/index.html

10 Minutes to pandas
http://pandas.pydata.org/pandas-docs/stable/10min.html

624
Help us understand the problem. What is going on with this article?
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away

Comments

No comments
Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account Login
624
Help us understand the problem. What is going on with this article?