Zip files | Databricks on AWS [2020/8/18時点]の翻訳です。
Hadoopは圧縮コーデックとしてzipファイルをサポートしていません。Apache Sparkにおいては、GZip、BZip2のテキストファイルや他のサポートされている圧縮フォーマットは、適切な拡張子が設定されていれば自動で解凍されるように設定することができますが、zipファイルを読み込むためには追加のステップを実行する必要があります。
以下のノートブックでは、zipファイルをどのように読み込むのかを説明しています。一時ディレクトリにzipファイルをダウンロードした後に、ファイルを解凍するためにDatabricksの%sh zipマジックコマンドを実行します。このノートブックで使用しているサンプルファイルに対するtailステップは解凍されたファイルからコメント行を削除します。
ファイルに対する操作を行う際に%shを使用するときには、結果は/databricks/driverに格納されます。Spark APIを用いてファイルをロードする前にDatabricks Utilitiesを用いてファイルをDBFSに移動することもできます。
Zipファイルを取り扱うPythonノートブック
Zipファイルを取り扱うScalaノートブック