はじめに
Databricks上で、Pyspark データフレーム->SparkRデータフレーム->Rデータフレーム へ変換する方法のメモ
コード
Pyspark データフレーム作成
notebook
%python
# データフレーム作成
spark_df = spark.createDataFrame([('a01', 150),('a02', 160)], ["item", "price"])
print(type(spark_df))
spark_df.show()
# Tempviewを作成
spark_df.createOrReplaceTempView("tempview_sparkr")
SparkR データフレーム作成
notebook
%r
# テーブルからSparkRデータフレームを作成
library(SparkR)
sparkr_df <- sql("select * from tempview_sparkr")
print(class(sparkr_df))
head(sparkr_df)
R データフレーム作成
notebook
%r
# SparkRデータフレームから Rデータフレームに変換
library(SparkR)
r_df <- collect(sparkr_df)
print(class(r_df))
head(r_df)