1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

pythonでexcelデータを読み込むときの下準備【技術的負債対応用】

Posted at

要約

エクセルファイルをpythonで処理するときは、余計な情報を削除しよう。
エクセルマクロを作るときは書式の作り込みはできるだけ避けよう。

きっかけ

数千行、十列程度のエクセルファイルに対して作業を行っていたのだが、異様にファイル操作が重かった。
デバッグ中にエクセルファイルを読み込むだけで10分以上かかり、事実上デバッグ不可能となっていた。
調査した結果、またブラックボックス化されたマクロが悪さをしていたたことがわかった。

出来事

まずはこのコードと出力結果を見てほしい。
誤差レベルのサイズのマクロと、ある細工を除けば、格納されているデータは全く同じ3つのエクセルファイルに対して、全セルの数値を合計した値を出力しただけのプログラムだ。

import openpyxl as pyxl
import datetime as dt


def read_and_sum(path: str):
    book = pyxl.open(path)
    ans = 0
    sheet = book.worksheets[0]
    for row in range(500):
        for col in range(10):
            ans += sheet.cell(row+1, col+1).value
    book.close()
    return ans


if __name__ == '__main__':
    start = dt.datetime.now()
    print(read_and_sum("testcase1.xlsx"))
    check1 = dt.datetime.now()
    print(read_and_sum("testcase2.xlsm"))
    check2 = dt.datetime.now()
    print(read_and_sum("testcase3.xlsm"))
    end = dt.datetime.now()

    print(f"例1:{(check1 - start).total_seconds()}sec")
    print(f"例2:{(check2 - check1).total_seconds()}sec")
    print(f"例3:{(end - check2).total_seconds()}sec")

出力結果

2494558
2494558
2494558
例1:0.034934sec
例2:0.045877sec
例3:12.923414sec

原因

ファイルの中身は同じでも、ファイル容量はこれほどの差ができている。
ファイル容量.png

この時点でピンときている人も多いと思うけど、3つのエクセルファイルの差は書式設定にある。
testcase1のエクセルファイルはこのように、
0~1000の数値を500行10列の範囲に書いただけのデータだ。
case1.png

case2は、1セル目のフォント、サイズを変更し、文字太字にして、
次のマクロを適用した。

Sub create_testcase()
    Dim src As Range
    Dim row As Long
    Dim col As Long
    
    Set src = ActiveSheet.Cells(1, 1)
    
    src.Copy
    
    For row = 1 To 500
        For col = 1 To 10
            If (row + col) Mod 2 = 1 Then
                ThisWorkbook.Sheets(1).Cells(row, col).PasteSpecial Paste:=xlPasteFormats
            End If
        Next
    Next
    
    
End Sub

石松模様に書式をコピーした結果が下の通り。

case2.png

case3は、上記のfor文のrowの上限を5000,colの上限を1000に変更しただけだ。見た目はcase2のものと全く同じだが、不要な書式データを大量に埋め込んである。
これが極端な速度のからくりだった。

余談

私の遭遇したExcelファイルは、特定シートの書式を消すだけでファイルサイズが10MB以上減る、素晴らしい出来栄えになっていた。
先人がマクロを作ったとき、セルの書式ごとコピーしていたのだと予想している。
書式を消したところ10分以上読み込みがかかり、諦めたエクセルファイルが100秒で読み込めるようになった。
このクソマクロを作ったのは誰だぁっ!

詳細検証

書式の多さがどこに影響しているかを調べるために、先程の速度計測用のソースを次のように書き換えた。

import openpyxl as pyxl
import datetime as dt


def read_and_sum(path: str):
    start = dt.datetime.now()
    book = pyxl.open(path)
    ans = 0
    sheet = book.worksheets[0]
    check1 = dt.datetime.now()
    for row in range(500):
        for col in range(10):
            ans += sheet.cell(row+1, col+1).value
    check2 = dt.datetime.now()
    book.close()
    end = dt.datetime.now()
    print(f"ファイル読み込み時間:{(check1 - start).total_seconds()}")
    print(f"セル操作時間:{(check2 - check1).total_seconds()}")
    print(f"後処理時間:{(end - check2).total_seconds()}")
    return ans


if __name__ == '__main__':
    print("例1:")
    print(read_and_sum("testcase1.xlsx"))
    print("例2:")
    print(read_and_sum("testcase2.xlsm"))
    print("例3:")
    print(read_and_sum("testcase3.xlsm"))

出力結果は下記のようになる。

例1:
ファイル読み込み時間:0.03194
セル操作時間:0.003001
後処理時間:0.0
2494558
例2:
ファイル読み込み時間:0.040884
セル操作時間:0.001993
後処理時間:0.0
2494558
例3:
ファイル読み込み時間:13.107952
セル操作時間:0.003989
後処理時間:0.0
2494558

どのファイルでも読み込み時間がほとんどであるため、
書式がセルの操作時間に影響を及ぼしているかどうかはよくわからなかった。

まとめ

  • Pythonでexcelファイルを操作するときは、高速化のために余計な書式はなるべく削除しよう。
  • VBAのマクロも技術的負債になるかどうかを意識して作成しよう。
1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?