LoginSignup
0

More than 1 year has passed since last update.

Databricksワークスペースライブラリ

Last updated at Posted at 2022-06-08

Workspace libraries | Databricks on AWS [2022/4/4時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

ワークスペースライブラリは、クラスターにインストールされるライブラリのローカルリポジトリとして動作します。あなたの組織によって開発されたカスタムコードや、あなたの組織で標準化した特定バージョンのオープンソースライブラリなどがワークスペースライブラリになるかもしれません。

ノートブックやジョブでクラスターを使用する前に、クラスターにワークスペースライブラリをインストールする必要があります。

Sharedフォルダーにあるワークスペースライブラリは、ワークスペースの全ユーザーが使用することができますが、ユーザーフォルダーにあるワークスペースライブラリはそのユーザーしか利用することができません。

ワークスペースライブラリの作成

  1. ライブラリを格納したいワークスペースのフォルダを右クリックします。

  2. Create > Libraryを選択します。

    Create Libraryダイアログが表示されます。

  3. Library Sourceを選択し、それぞれの手順に従います。

Jar、Python egg、Python wheelのアップロード

注意
Python eggのインストールは非推奨となり、将来的なDatabricksランタイムのリリースからは削除される予定です。

  1. Library SourceのボタンリストでUploadを選択します。
  2. JarPython EggPython Whlのいずれかを選択します。
  3. オプションでライブラリ名を入力します。
  4. お手元のJar、Egg、Whlをドロップボックスにドラッグするか、ドロップボックスをクリックしてファイルを選択します。ファイルは、dbfs:/FileStore/jarsにアップロードされます。
  5. Createをクリックします。ライブラリのステータススクリーが表示されます。
  6. オプションで、クラスターにライブラリをインストールします。

アップロードされたJar、Python egg、Python wheelの参照

すでにjar、egg、wheelをオブジェクトストレージにアップロードしている場合には、ワークスペースライブラリでそれらを参照することができます。

DBFSあるいはS3に格納されているライブラリを選択することができます。

  1. Library SourceのボタンリストでDBFS/S3を選択します。
  2. JarPython EggPython Whlのいずれかを選択します。
  3. オプションでライブラリ名を入力します。
  4. ライブラリに対するDBFSパスあるいはS3パスを指定します。
  5. Createをクリックします。ライブラリのステータススクリーが表示されます。
  6. オプションで、クラスターにライブラリをインストールします。

PyPIパッケージ

  1. Library SourceのボタンリストでPyPIを選択します。
  2. PyPIパッケージ名を入力します。ライブラリの特定のバージョンをインストールするには、ライブラリに対するフォーマット:<library>==<version>を使用します。例えば、scikit-learn==0.19.1のようなものです。
  3. RepositoryフィールドにオプションでPyPIリポジトリのURLを入力します。
  4. Createをクリックします。ライブラリのステータススクリーが表示されます。
  5. オプションで、クラスターにライブラリをインストールします。

MavenあるいはSparkパッケージ

  1. Library SourceのボタンリストでMavenを選択します。

  2. Mavenコーディネートを指定します。以下のいずれかを実施します。

    • Coordinateフィールドに、インストールしたいMavenのコーディネートを入力します。MavenコーディネートはgroupId:artifactId:versionのフォーマットとなっており、例えば、com.databricks:spark-avro_2.10:1.0.0のようになります。

    • 正確なコーディネートがわからない場合、ライブラリ名を入力しSearch Packagesをクリックします。マッチするパッケージの一覧が表示されます。パッケージの詳細を表示するには名前をクリックします。名前、組織、レーティングでパッケージをソートすることができます。また、サーチバーにクエリーを入力することで結果をフィルタリングすることができます。自動で結果が更新されます。

      1. 左上のドロップダウンリストでMaven CentralSpark Packagesを選択します。
      2. オプションで、Releasesカラムでパッケージバージョンを選択します。
      3. パッケージの隣の + Select をクリックします。選択したパッケージとバージョンでCoordinateフィールドが埋められます。
  3. オプションでRepositoryフィールドにMavenリポジトリのURLを入力します。

    注意
    内部Mavenはサポートされていません。

  4. Exclusionsフィールドで、オプションで除外したい依存ライブラリのgroupIdartifactIdを指定します。例えば、log4j:log4jのようになります。

  5. Createをクリックします。ライブラリのステータススクリーが表示されます。

  6. オプションで、クラスターにライブラリをインストールします。

CRANパッケージ

  1. Library SourceのボタンリストでCRANを選択します。
  2. Packageフィールドにパッケージ名を入力します。
  3. RepositoryフィールドにオプションでCRANリポジトリのURLを入力します。
  4. Createをクリックします。ライブラリのステータススクリーが表示されます。
  5. オプションで、クラスターにライブラリをインストールします。

注意
CRANミラーは最新バージョンのライブラリを提供しています。結果として、異なるタイミングで異なるクラスターにライブラリをアタッチした場合、異なるバージョンのRパッケージが存在することになるかもしれません。DatabricksにおけるRパッケージのバージョンを固定する方法に関しては、Knowledge Baseをご覧ください。

ワークスペースライブラリ詳細の参照

  1. ライブラリを格納するワークスペースフォルダに移動します。
  2. ライブラリ名をクリックします。

稼働中のクラスターとライブラリのインストール状況を表示するライブラリ詳細ページが表示されます。ライブラリがインストールされている場合、パッケージのホストへのリンクがページに表示されます。ライブラリがアップロードされた場合には、アップロードされたパッケージファイルへのリンクが表示されます。

ワークスペースライブラリの移動

  1. ライブラリを格納するワークスペースフォルダに移動します。
  2. ライブラリ名の右にある下向き矢印をクリックし、Moveを選択します。フォルダブラウザが表示されます。
  3. 移動先のフォルダを選択します。
  4. Selectをクリックします。
  5. Confirm and Moveをクリックします。

ワークスペースライブラリの削除

重要!
ワークスペースライブラリを削除する前に、すべてのクラスターからアンインストールする必要があります。

ワークスペースライブラリを削除するには以下を実行します。

  1. ライブラリをTrashフォルダに移動します。
  2. Trashフォルダのライブラリを永久に削除するか、Trashフォルダを空にします。

Databricks 無料トライアル

Databricks 無料トライアル

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
0