More than 5 years have passed since last update.

DataFrame や Series内のデータ参照は「iat」で行おう

Posted at 2019-05-27

はじめに

こんにちは。
現在東京大学で主にシステムデザインを学んでいる学生です。
授業で少し大きめのデータを扱った際に普段より長い処理時間に苦労したので、その時に試したちょっとした高速化の工夫をご紹介したいと思います。

名前：Data
長さ：10**6
カラム：ITEM, NUM (適当に作った為、特に意味の無いデータです)

>>> Data.head()
	ITEM  NUM
0	02134	1
1	04137	1
2	03900	1
3	00792	1
4	03678	1
>>> print(len(Data))
1000000

ただデータにアクセスするだけの処理を行い、掛かった時間を比較しています。

t = time.time()
for i in range(len(Data)):
    Data['NUM'][i]
print(time.time()-t)
# 54.22648358345032

t = time.time()
for i in range(len(Data)):
    Data.iloc[i,1]
print(time.time()-t)
# 16.67137122154236

t = time.time()
for i in range(len(Data)):
    Data.iat[i,1]
print(time.time()-t)
# 10.457467794418335

それぞれの処理時間をまとめると以下のようになりました。

10^6 程の大きさのデータに対してもこれだけの差が出るとは思っていなかった為、少々驚きました。
大きめのデータを扱う際にはPythonのライブラリのメソッドを積極的に活用していきたいと思います。