More than 3 years have passed since last update.

Databricksにおけるzipファイルの取り扱い

Last updated at 2021-11-08Posted at 2021-11-08

Zip files | Databricks on AWS [2020/8/18時点]の翻訳です。

Hadoopは圧縮コーデックとしてzipファイルをサポートしていません。Apache Sparkにおいては、GZip、BZip2のテキストファイルや他のサポートされている圧縮フォーマットは、適切な拡張子が設定されていれば自動で解凍されるように設定することができますが、zipファイルを読み込むためには追加のステップを実行する必要があります。

以下のノートブックでは、zipファイルをどのように読み込むのかを説明しています。一時ディレクトリにzipファイルをダウンロードした後に、ファイルを解凍するためにDatabricksの%sh zipマジックコマンドを実行します。このノートブックで使用しているサンプルファイルに対するtailステップは解凍されたファイルからコメント行を削除します。

ファイルに対する操作を行う際に%shを使用するときには、結果は/databricks/driverに格納されます。Spark APIを用いてファイルをロードする前にDatabricks Utilitiesを用いてファイルをDBFSに移動することもできます。

Zipファイルを取り扱うPythonノートブック

Zipファイルを取り扱うScalaノートブック

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up