Spark
Python3

Sparkにpythonライブラリを追加したい

事前準備

事前にローカルマシンでライブラリの入ったzipファイルを作る(ここではazure-storage==0.32.0をインストール。0.33.0だとうまく行かなかった)

midir pylib
pip3 install -t pylib azure-storage==0.32.0
cd pylib
zip -r ../dependances.zip .

方法1

sparkのプログラムの中で以下のようにする。JupiterNotebookでやりたいときはこれしかない。

sc = spark.sparkContext
sc.addPyFile('dependances.zipのおいてあるアドレス')
from azure.storage.blob import BlockBlobService

方法2

spark-submitするときに引数につける

spark-submit --py-files dependances.zip main.py

Sparkプログラムの中から普通に呼べる

from azure.storage.blob import BlockBlobService