DataFrame形式で出力されない?
JupyterNotebookからSparkSQLを実行する際に、panadasで出力した結果のようなDataFrame形式で出力されない場合がある。
以下のコードをJupyterNotebook上から実行しておくことで、DataFrame形式で出力できる。
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
spark.conf.set('spark.sql.repl.eagerEval.enabled', True) # jupyter上で、dataframe形式を出力する
spark.conf.set('spark.sql.repl.eagerEval.truncate', 1000) # 文字数の設定をする