やりたいこと
- CSVファイルをデータフレームで読み込んだ後、SQLで出力する
サンプルデータ
Step 1
- CSVファイルを読み込む
%pyspark
import pandas as pd
# Hadoppにあるファイルを読み込む
df_csv = pd.read_csv('test.csv', sep=',' )
# python から sparkにに変換したものをテーブルにいれる
# create みたいなの使ってた
print(df_csv)
# pandas dataframe を spark dataframeに変換
df=spark.createDataFrame(df_csv)
# sqlで使えるように一時テーブルとして登録
df.createOrReplaceTempView('test_1')
Step 2
- SQLで確認
select *
from test_1
limit 10