先日リリースされたVolumesを活用すると、任意のフォーマットのファイルをお手軽に分析できるようになります。
ボリュームとは
簡単に言えば、Unity Catalogにマウントされるファイルシステムのようなものです。
ボリュームは、クラウドオブジェクトストレージロケーションのストレージの論理的ボリュームを表現するUnity Catalogのオブジェクトです。ボリュームは、ファイルのアクセス、格納、制御、整理する能力を提供します。テーブルは表形式のデータセットに対するガバナンスを提供しますが、ボリュームは非テーブルケー式のデータセットに対するガバナンスを追加します。構造化、半構造化、非構造化データを含むすべてのフォーマットのファイルの格納、アクセスを行うためにボリュームを活用することができます。
ボリュームへのファイルのアップロード
以下で公開されているCSVをダウンロードします。
Databricksのデータエクスプローラにアクセスし、必要に応じてスキーマを作成し、その配下にボリュームを作成します。
アップロードをクリックします。Excelがアップロードされました。
ボリュームのファイルへのアクセス
ボリュームのファイルには/Volumes/takaakiyayoi_catalog/exterenal_data/external_files
のパスでアクセスできるようになります。
display(dbutils.fs.ls("/Volumes/takaakiyayoi_catalog/exterenal_data/external_files"))
pandasを使ってロードしてみます。
最初に必要なライブラリをインストールします。
%pip install openpyxl xlrd
dbutils.library.restartPython()
ボリュームのパスを指定してロードします。
import pandas as pd
pdf = pd.read_excel("/Volumes/takaakiyayoi_catalog/exterenal_data/external_files/newly_confirmed_cases_daily.xlsx")
display(pdf)
ボリュームによって、ファイルシステムの複雑性が抽象化されるので、お手軽にファイルを活用した分析ができるようになると思います。ぜひご活用ください!