More than 5 years have passed since last update.

PythonのGzipFileクラスはBufferedReaderを経由してreadされる

Posted at 2019-12-16

だからどうしたという話ですが、GzipFileを使ったコードを書いていて気がついたのでメモです。

GzipFileとは

コンストラクタにファイル名を渡すとローカルのGzipファイル、fileobjを渡すことでファイル「っぽい」Gzipオブジェクトの読み書きが出来ます。

する関係になっており、GzipFileをreadする時はBufferedReaderを経由することになります（※）。

※より正確には、_GzipReaderとIoClassの間に、_PaddedFileというクラスが挟まります

GzipFileはBufferedReaderのバッファーサイズにデフォルト（io.DEFAULT_BUFFER_SIZE）を使います。

読み込み対象のioによっては、より大きな単位でバッファしたい時もあるかもしれません（※）。
が、GzipFileの機能ではバッファサイズが変更出来ないようなので、GzipFileのfileobjにBufferedReaderを渡しましょう。

※ 例えば、GCSはダウンロードする単位が小さい（数KB単位）だと、パフォーマンスが落ちるそうです。