シングルノードのワークロードをDatabricksに移行する際の6つの疑問

Last updated at 2022-05-10Posted at 2022-05-10

Databricksクイックスタートガイドのコンテンツです。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

本書では、シングルノードのワークロードをDatabricksに移行する際に生じる典型的な疑問に答えます。

20ノードのSparkクラスターを作成したのですが、私のpandasのコードが速くなりません。何が悪いのでしょうか？

シングルノードでの動作を前提としたライブラリを使用しており、Databricksに移行しても、これらは分散処理されません。Apache SparkのPython APIであるPySparkを使ってご自身のコードを書き直す必要があります。

あるいは、Apache Sparkデータフレームのデータにアクセスするために、pandasデータフレームAPIを使用できるPandas API on Sparkを活用することができます。

ベストなデプロイメントの選択肢はアプリケーションのレーテンシーの要件に依存します。

バッチ予測に関しては、推論、予測のためにモデルをデプロイするを参照ください。
ストリーミングアプリケーションに関しては、構造化ストリーミングを参照ください。
低レーテンシーのモデル推論に関しては、MLflowモデルサービング、あるいはAmazon SageMakerのようなクラウドプロバイダーのソリューションの活用を検討ください。

ライブラリをインストール、アップデートする方法はいくつか存在します。

ファイルパスの先頭に/dbfs/を追加してください。ローカルファイルAPIをご覧ください。

マウントします。DBFSへのオブジェクトストレージのマウントをご覧ください。
データタブを使います。データのインポート、読み込み、変更をご覧下さい。
%sh wgetを使います。

データファイルのURLを参照できるのであれば、Sparkドライバーノードにデータをインポートするために%sh wget <url>/<filename>を使用することができます。

注意
セルの出力には、Saving to: '<filename>'と表示されますが、実際には、file:/databricks/driver/<filename>に保存されます。

例えば、https://data.cityofnewyork.us/api/views/25th-nujf/rows.csv?accessType=DOWNLOADのファイルを以下のコマンドでダウンロードしたとします。

Bash

%sh wget https://data.cityofnewyork.us/api/views/25th-nujf/rows.csv?accessType=DOWNLOAD

このデータをロードするには以下を実行します。

Python

pandas_df = pd.read_csv("file:/databricks/driver/rows.csv?accessType=DOWNLOAD", header='infer')