LoginSignup
0
0

More than 1 year has passed since last update.

Databricksワークスペースライブラリ

Last updated at Posted at 2022-06-08

Workspace libraries | Databricks on AWS [2022/4/4時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

ワークスペースライブラリは、クラスターにインストールされるライブラリのローカルリポジトリとして動作します。あなたの組織によって開発されたカスタムコードや、あなたの組織で標準化した特定バージョンのオープンソースライブラリなどがワークスペースライブラリになるかもしれません。

ノートブックやジョブでクラスターを使用する前に、クラスターにワークスペースライブラリをインストールする必要があります。

Sharedフォルダーにあるワークスペースライブラリは、ワークスペースの全ユーザーが使用することができますが、ユーザーフォルダーにあるワークスペースライブラリはそのユーザーしか利用することができません。

ワークスペースライブラリの作成

  1. ライブラリを格納したいワークスペースのフォルダを右クリックします。

  2. Create > Libraryを選択します。

    Create Libraryダイアログが表示されます。

  3. Library Sourceを選択し、それぞれの手順に従います。

Jar、Python egg、Python wheelのアップロード

注意
Python eggのインストールは非推奨となり、将来的なDatabricksランタイムのリリースからは削除される予定です。

  1. Library SourceのボタンリストでUploadを選択します。
  2. JarPython EggPython Whlのいずれかを選択します。
  3. オプションでライブラリ名を入力します。
  4. お手元のJar、Egg、Whlをドロップボックスにドラッグするか、ドロップボックスをクリックしてファイルを選択します。ファイルは、dbfs:/FileStore/jarsにアップロードされます。
  5. Createをクリックします。ライブラリのステータススクリーが表示されます。
  6. オプションで、クラスターにライブラリをインストールします。

アップロードされたJar、Python egg、Python wheelの参照

すでにjar、egg、wheelをオブジェクトストレージにアップロードしている場合には、ワークスペースライブラリでそれらを参照することができます。

DBFSあるいはS3に格納されているライブラリを選択することができます。

  1. Library SourceのボタンリストでDBFS/S3を選択します。
  2. JarPython EggPython Whlのいずれかを選択します。
  3. オプションでライブラリ名を入力します。
  4. ライブラリに対するDBFSパスあるいはS3パスを指定します。
  5. Createをクリックします。ライブラリのステータススクリーが表示されます。
  6. オプションで、クラスターにライブラリをインストールします。

PyPIパッケージ

  1. Library SourceのボタンリストでPyPIを選択します。
  2. PyPIパッケージ名を入力します。ライブラリの特定のバージョンをインストールするには、ライブラリに対するフォーマット:<library>==<version>を使用します。例えば、scikit-learn==0.19.1のようなものです。
  3. RepositoryフィールドにオプションでPyPIリポジトリのURLを入力します。
  4. Createをクリックします。ライブラリのステータススクリーが表示されます。
  5. オプションで、クラスターにライブラリをインストールします。

MavenあるいはSparkパッケージ

  1. Library SourceのボタンリストでMavenを選択します。

  2. Mavenコーディネートを指定します。以下のいずれかを実施します。

    • Coordinateフィールドに、インストールしたいMavenのコーディネートを入力します。MavenコーディネートはgroupId:artifactId:versionのフォーマットとなっており、例えば、com.databricks:spark-avro_2.10:1.0.0のようになります。

    • 正確なコーディネートがわからない場合、ライブラリ名を入力しSearch Packagesをクリックします。マッチするパッケージの一覧が表示されます。パッケージの詳細を表示するには名前をクリックします。名前、組織、レーティングでパッケージをソートすることができます。また、サーチバーにクエリーを入力することで結果をフィルタリングすることができます。自動で結果が更新されます。

      1. 左上のドロップダウンリストでMaven CentralSpark Packagesを選択します。
      2. オプションで、Releasesカラムでパッケージバージョンを選択します。
      3. パッケージの隣の + Select をクリックします。選択したパッケージとバージョンでCoordinateフィールドが埋められます。
  3. オプションでRepositoryフィールドにMavenリポジトリのURLを入力します。

    注意
    内部Mavenはサポートされていません。

  4. Exclusionsフィールドで、オプションで除外したい依存ライブラリのgroupIdartifactIdを指定します。例えば、log4j:log4jのようになります。

  5. Createをクリックします。ライブラリのステータススクリーが表示されます。

  6. オプションで、クラスターにライブラリをインストールします。

CRANパッケージ

  1. Library SourceのボタンリストでCRANを選択します。
  2. Packageフィールドにパッケージ名を入力します。
  3. RepositoryフィールドにオプションでCRANリポジトリのURLを入力します。
  4. Createをクリックします。ライブラリのステータススクリーが表示されます。
  5. オプションで、クラスターにライブラリをインストールします。

注意
CRANミラーは最新バージョンのライブラリを提供しています。結果として、異なるタイミングで異なるクラスターにライブラリをアタッチした場合、異なるバージョンのRパッケージが存在することになるかもしれません。DatabricksにおけるRパッケージのバージョンを固定する方法に関しては、Knowledge Baseをご覧ください。

ワークスペースライブラリ詳細の参照

  1. ライブラリを格納するワークスペースフォルダに移動します。
  2. ライブラリ名をクリックします。

稼働中のクラスターとライブラリのインストール状況を表示するライブラリ詳細ページが表示されます。ライブラリがインストールされている場合、パッケージのホストへのリンクがページに表示されます。ライブラリがアップロードされた場合には、アップロードされたパッケージファイルへのリンクが表示されます。

ワークスペースライブラリの移動

  1. ライブラリを格納するワークスペースフォルダに移動します。
  2. ライブラリ名の右にある下向き矢印をクリックし、Moveを選択します。フォルダブラウザが表示されます。
  3. 移動先のフォルダを選択します。
  4. Selectをクリックします。
  5. Confirm and Moveをクリックします。

ワークスペースライブラリの削除

重要!
ワークスペースライブラリを削除する前に、すべてのクラスターからアンインストールする必要があります。

ワークスペースライブラリを削除するには以下を実行します。

  1. ライブラリをTrashフォルダに移動します。
  2. Trashフォルダのライブラリを永久に削除するか、Trashフォルダを空にします。

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0