LoginSignup
4
6

More than 5 years have passed since last update.

pyspark(SparkのPython)でRDDを圧縮ファイルとして保存する方法

Posted at

scalajavaからRDDを操作するときは下記のように
1. 圧縮コーデッククラスをimportする
2. saveAsTextFileの第2引数にコーデッククラスのクラス・インスタンスを指定する
のようにするとRDDを圧縮ファイルとして保存できるのですが、

import org.apache.hadoop.io.compress.GzipCodec
sc.textFile( "/path/input/file" )
  .saveAsTextFile( "/path/output/file", classOf[GzipCodec] )

pythonではどうするんだろうと思って調べたら下記のようでした。

codec = "org.apache.hadoop.io.compress.GzipCodec"
sc.textFile( "/path/input/file" ) \
  .saveAsTextFile( "/path/output/file", codec )

参考: https://spark.apache.org/docs/latest/api/python/pyspark.html

4
6
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
6