Azure BlobStorageに格納しているオブジェクトファイルについて、いちいちローカルにダウンロードしてからDataFrameに読み込むのではなく、直接ファイルパスを指定してDataFrameに読み込む方法を調査したので備忘録として残しておきます。
こちらの記事では独自にライブラリを作成して上記を実現していましたが、接続文字列を引数に指定することでpandasで用意されているread_csvで実現できました。
環境
- Python=3.9.13
- pandas==1.4.3
- adlfs==2022.7.0
実装コード
import pandas as pd
connect_string = "xxxxxxxx"
path = "abfs://<container>/<file_path>"
storage_options = {"connection_string": connection_string]
pd.read_csv(path, storage_options)