scala
やjava
からRDD
を操作するときは下記のように
1. 圧縮コーデッククラスをimportする
2. saveAsTextFile
の第2引数にコーデッククラスのクラス・インスタンスを指定する
のようにするとRDDを圧縮ファイルとして保存できるのですが、
import org.apache.hadoop.io.compress.GzipCodec
sc.textFile( "/path/input/file" )
.saveAsTextFile( "/path/output/file", classOf[GzipCodec] )
python
ではどうするんだろうと思って調べたら下記のようでした。
codec = "org.apache.hadoop.io.compress.GzipCodec"
sc.textFile( "/path/input/file" ) \
.saveAsTextFile( "/path/output/file", codec )
参考: https://spark.apache.org/docs/latest/api/python/pyspark.html