7
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

PySparkの基本的な関数

Posted at

はじめに

アプリケーションエンジニアのためのApacheSpark入門を読んでいる。
PySparkの基本的な関数が8章で紹介されていたので、下記で紹介する。

基本的な関数

関数 説明
read.json jsonの読み込み
read.csv csvの読み込み
select カラムで絞る
withColumnRenamed カラム名の変更
registerTempTable テーブルの登録
printSchema スキーマを表示する
show データの表示
sql SQL文で登録したテーブルに対して処理をする
groupby グルーピング
count カウント
data_format あるdateフィールドの変換を行う
alias カラム名の変更
na null,NaNが含まれているレコードを取得
drop レコードを除く
fill null,NaNを埋める
join DataFrameの結合
pivot 指定したカラムの値を重複排除しカラムとして扱う
avg 平均を求める
orderBy レコードをカラムの値に応じて並び替える
toPandas sparkのDataFrameをPandasのDataFrameに変換する
agg groupByしたものについて、渡した関数をgroupごとに実行
min 最小値を返す
max 最大値を返す
filter 特定の条件でレコードを絞り込む
udf pythonの関数をユーザー定義関数として保存する
json DataFrameをjson形式で書き出す
csv DataFrameをcsv形式で書き出す
partitionBy 指定したカラムでデータを分割し出力する
cache DataFrameをcacheしておく
explain Sparkの実行計画を表示
7
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?