はじめに
アプリケーションエンジニアのためのApacheSpark入門を読んでいる。
PySparkの基本的な関数が8章で紹介されていたので、下記で紹介する。
基本的な関数
関数 | 説明 |
---|---|
read.json | jsonの読み込み |
read.csv | csvの読み込み |
select | カラムで絞る |
withColumnRenamed | カラム名の変更 |
registerTempTable | テーブルの登録 |
printSchema | スキーマを表示する |
show | データの表示 |
sql | SQL文で登録したテーブルに対して処理をする |
groupby | グルーピング |
count | カウント |
data_format | あるdateフィールドの変換を行う |
alias | カラム名の変更 |
na | null,NaNが含まれているレコードを取得 |
drop | レコードを除く |
fill | null,NaNを埋める |
join | DataFrameの結合 |
pivot | 指定したカラムの値を重複排除しカラムとして扱う |
avg | 平均を求める |
orderBy | レコードをカラムの値に応じて並び替える |
toPandas | sparkのDataFrameをPandasのDataFrameに変換する |
agg | groupByしたものについて、渡した関数をgroupごとに実行 |
min | 最小値を返す |
max | 最大値を返す |
filter | 特定の条件でレコードを絞り込む |
udf | pythonの関数をユーザー定義関数として保存する |
json | DataFrameをjson形式で書き出す |
csv | DataFrameをcsv形式で書き出す |
partitionBy | 指定したカラムでデータを分割し出力する |
cache | DataFrameをcacheしておく |
explain | Sparkの実行計画を表示 |