More than 5 years have passed since last update.

PySparkの基本的な関数

Posted at 2018-09-29

はじめに

アプリケーションエンジニアのためのApacheSpark入門を読んでいる。
PySparkの基本的な関数が8章で紹介されていたので、下記で紹介する。

関数	説明
read.json	jsonの読み込み
read.csv	csvの読み込み
select	カラムで絞る
withColumnRenamed	カラム名の変更
registerTempTable	テーブルの登録
printSchema	スキーマを表示する
show	データの表示
sql	SQL文で登録したテーブルに対して処理をする
groupby	グルーピング
count	カウント
data_format	あるdateフィールドの変換を行う
alias	カラム名の変更
na	null,NaNが含まれているレコードを取得
drop	レコードを除く
fill	null,NaNを埋める
join	DataFrameの結合
pivot	指定したカラムの値を重複排除しカラムとして扱う
avg	平均を求める
orderBy	レコードをカラムの値に応じて並び替える
toPandas	sparkのDataFrameをPandasのDataFrameに変換する
agg	groupByしたものについて、渡した関数をgroupごとに実行
min	最小値を返す
max	最大値を返す
filter	特定の条件でレコードを絞り込む
udf	pythonの関数をユーザー定義関数として保存する
json	DataFrameをjson形式で書き出す
csv	DataFrameをcsv形式で書き出す
partitionBy	指定したカラムでデータを分割し出力する
cache	DataFrameをcacheしておく
explain	Sparkの実行計画を表示