boto3でPySparkを呼び出すのにてこずった
-
command-runner.jar
だけ渡してやればいいみたいだ
import boto3
emr = boto3.client('emr', region_name='ap-northeast-1')
spark_args = ['spark-submit', 'pyspark_app.py']
response = emr.add_job_flow_steps(
# クラスタ作成後にもらえるJobFlowId
JobFlowId='j-XXXXXXXXXXXXXX',
Steps=[
{
'Name': 'sample batch job',
'ActionOnFailure': 'CANCEL_AND_WAIT',
'HadoopJarStep': {
'Properties': [],
'Jar': 'command-runner.jar',
'Args': spark_args
}
},
]
)