LoginSignup
0
0

More than 1 year has passed since last update.

Databricksにおけるzipファイルの取り扱い

Last updated at Posted at 2021-11-08

Zip files | Databricks on AWS [2020/8/18時点]の翻訳です。

Hadoopは圧縮コーデックとしてzipファイルをサポートしていません。Apache Sparkにおいては、GZip、BZip2のテキストファイルや他のサポートされている圧縮フォーマットは、適切な拡張子が設定されていれば自動で解凍されるように設定することができますが、zipファイルを読み込むためには追加のステップを実行する必要があります。

以下のノートブックでは、zipファイルをどのように読み込むのかを説明しています。一時ディレクトリにzipファイルをダウンロードした後に、ファイルを解凍するためにDatabricksの%sh zipマジックコマンドを実行します。このノートブックで使用しているサンプルファイルに対するtailステップは解凍されたファイルからコメント行を削除します。

ファイルに対する操作を行う際に%shを使用するときには、結果は/databricks/driverに格納されます。Spark APIを用いてファイルをロードする前にDatabricks Utilitiesを用いてファイルをDBFSに移動することもできます。

Zipファイルを取り扱うPythonノートブック

Zipファイルを取り扱うScalaノートブック

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0