29
24

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Pythonでパスワード付Excelファイルを読む

Posted at

xlsx(xlsm)ファイルのアンケートを集計するために、Pandasで読もうとしたらパスワード付で詰まったので、対処法をメモしておく。

パスワード付xlsxファイルが開けない

PandasでExcelのファイルを読むには、通常read_excel("ファイルへのパス")で読み込めるが、パスワード付だと以下のようなエラーが出る。

xlrd.biffh.XLRDError: Can't find workbook in OLE2 compound document

回答秘匿とかの意味でパスワード付けないといけなかったので、これは困った。

msoffcryptoで開く

ググってみるとこの記事が参考になった。
msoffcryptoというモジュールでパスワードを指定して開くことができるみたい。
クラックするものではないので、あくまでパスワードは事前に知ってないといけないのだが、アンケートのパスワードは、周囲への秘匿のために僕が自分でつけたものなので、問題なく使えそうだ。

モジュールインポート

この辺を使う。

import tempfile
import msoffcrypto
import pandas as pd
from pathlib import WindowsPath
  • tempfile:パスワード解除後のファイルを一時ファイルで扱うために使う
  • msoffcrypto:今回の本命。パスワード付officeファイルを開くために使う
  • pandas:ファイルを読み込むために使う。今回は回答集計が目的だったのでこれにした
  • pathlib:ファイルアクセスのために使う。使いやすさで選んだだけ

回答ファイルに順次アクセス

ただのpathlibの使い方だが、アンケートの回答が入ったディレクトリパスのインスタンスを作って、中にあるExcelファイルをglob()メソッドで順次取り出す。読み出したファイルへはforループ内でfileでアクセスできる。(名前はただの変数名なので自由に命名していい)
今回はxlsmだったのだが、用途に応じてファイル名とか拡張子で適当にフィルタすると予期しないファイルを読まずに済むので安全。

file_dir = WindowsPath(r"アンケートが入ったディレクトリのパス")
# 回答ファイルを順次確認
for file in file_dir.glob("*.xlsm"):

ファイルを開く

抽出したfileオブジェクトのopen()メソッドでとりあえず開く。excelのファイルなのでバイナリモードで。
ここでパスワード解除後のファイルを格納するテンポラリファイルを一緒に作っておく。

  • パスワード付のファイルfoffice_file = msoffcrypto.OfficeFile(f)としてインスタンスを作る。
  • 作ったインスタンスでoffice_file.load_key(password="パスワード")としてパスワードを指定するとパスワードを解除した状態にできる。
  • office_file.decrypt(tf)でパスワードを解除状態のファイルを別のファイルに書き込める。ここで、最初にファイルを開くと同時に作ったテンポラリファイルを対象に書き込む。
  • df = pd.read_excel(tf, header=None)でパスワードがない状態のファイルを通常通り読み込める。今回はpandasのDataFrameとして読んだが、ここは用途に応じて好きな読み方で。
    # パスワード解除したテンポラリファイル作成
    with file.open("rb") as f, tempfile.TemporaryFile() as tf:
        office_file = msoffcrypto.OfficeFile(f)
        office_file.load_key(password="パスワード")
        office_file.decrypt(tf)
        # テンポラリファイルから回答をロード
        df = pd.read_excel(tf, header=None)

一連で

無事に読めるようになったので、一連で処理。
with文の中でDataFrameが作成できるので、DataFrameの加工はwith文の外でやる。
集計をpandas.Panelでやるために、forループの末尾でID振りながらdictに登録していき、forを抜けたところでPanelにしている。
最後に、pandas.Panel.to_excel()でexcelファイルでエクスポートして完成。

import tempfile
import msoffcrypto
import pandas as pd
from pathlib import WindowsPath

pnl_dict = dict()
key = 0
file_dir = WindowsPath(r"アンケートが入ったディレクトリのパス")
# 回答ファイルを順次確認
for file in file_dir.glob("*.xlsm"):
    # パスワード解除したテンポラリファイル作成
    with file.open("rb") as f, tempfile.TemporaryFile() as tf:
        office_file = msoffcrypto.OfficeFile(f)
        office_file.load_key(password="パスワード")
        office_file.decrypt(tf)
        # テンポラリファイルから回答をロード
        df = pd.read_excel(tf, header=None)

    # 読み込んだdfを色々加工

    # 最後にPanelにするので、IDつけてdictに入れてく
    pnl_dict[key] = df.copy()
    key += 1
# Panelにして1つのexcelでエクスポート
pnl = pd.Panel(pnl_dict)
pnl.to_excel("test.xlsx")

Panelのワーニング

実行したらこんなワーニングが出た。

sys:1: FutureWarning:
Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a .to_xarray() method to help automate this conversion.

どうやらPanelは廃止予定らしい…DataFrameのMultiIndexを使えとのこと。確かにDataFrameとSeriesはよく使うけど、Panelはちゃんと使うの初めてかも。
とりあえず今回のは今回専用の集計ができればいいので、そのまま使う。

終わりに

これでパスワード付のofficeファイルも怖くない。僕はExcelしか扱ったことないが、Wordとかpptもいけるみたい。自然言語処理とかやる時はWordファイル相手に似たようなことすることもあるのかなぁ…
main関数すら切らない雑なつくりをしてしまったり、ファイルパスとパスワード渡してDataFrame返すような関数にしといたほうが、今後も使いまわせて便利だったな~と思うようなところは反省…

参考

29
24
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
29
24

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?