Workspace libraries | Databricks on AWS [2022/4/4時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
ワークスペースライブラリは、クラスターにインストールされるライブラリのローカルリポジトリとして動作します。あなたの組織によって開発されたカスタムコードや、あなたの組織で標準化した特定バージョンのオープンソースライブラリなどがワークスペースライブラリになるかもしれません。
ノートブックやジョブでクラスターを使用する前に、クラスターにワークスペースライブラリをインストールする必要があります。
Sharedフォルダーにあるワークスペースライブラリは、ワークスペースの全ユーザーが使用することができますが、ユーザーフォルダーにあるワークスペースライブラリはそのユーザーしか利用することができません。
ワークスペースライブラリの作成
-
ライブラリを格納したいワークスペースのフォルダを右クリックします。
-
Library Sourceを選択し、それぞれの手順に従います。
Jar、Python egg、Python wheelのアップロード
注意
Python eggのインストールは非推奨となり、将来的なDatabricksランタイムのリリースからは削除される予定です。
- Library SourceのボタンリストでUploadを選択します。
- Jar、Python Egg、Python Whlのいずれかを選択します。
- オプションでライブラリ名を入力します。
- お手元のJar、Egg、Whlをドロップボックスにドラッグするか、ドロップボックスをクリックしてファイルを選択します。ファイルは、
dbfs:/FileStore/jars
にアップロードされます。 - Createをクリックします。ライブラリのステータススクリーが表示されます。
- オプションで、クラスターにライブラリをインストールします。
アップロードされたJar、Python egg、Python wheelの参照
すでにjar、egg、wheelをオブジェクトストレージにアップロードしている場合には、ワークスペースライブラリでそれらを参照することができます。
DBFSあるいはS3に格納されているライブラリを選択することができます。
- Library SourceのボタンリストでDBFS/S3を選択します。
- Jar、Python Egg、Python Whlのいずれかを選択します。
- オプションでライブラリ名を入力します。
- ライブラリに対するDBFSパスあるいはS3パスを指定します。
- Createをクリックします。ライブラリのステータススクリーが表示されます。
- オプションで、クラスターにライブラリをインストールします。
PyPIパッケージ
- Library SourceのボタンリストでPyPIを選択します。
- PyPIパッケージ名を入力します。ライブラリの特定のバージョンをインストールするには、ライブラリに対するフォーマット:
<library>==<version>
を使用します。例えば、scikit-learn==0.19.1
のようなものです。 - RepositoryフィールドにオプションでPyPIリポジトリのURLを入力します。
- Createをクリックします。ライブラリのステータススクリーが表示されます。
- オプションで、クラスターにライブラリをインストールします。
MavenあるいはSparkパッケージ
-
Library SourceのボタンリストでMavenを選択します。
-
Mavenコーディネートを指定します。以下のいずれかを実施します。
-
Coordinateフィールドに、インストールしたいMavenのコーディネートを入力します。Mavenコーディネートは
groupId:artifactId:version
のフォーマットとなっており、例えば、com.databricks:spark-avro_2.10:1.0.0
のようになります。 -
正確なコーディネートがわからない場合、ライブラリ名を入力しSearch Packagesをクリックします。マッチするパッケージの一覧が表示されます。パッケージの詳細を表示するには名前をクリックします。名前、組織、レーティングでパッケージをソートすることができます。また、サーチバーにクエリーを入力することで結果をフィルタリングすることができます。自動で結果が更新されます。
- 左上のドロップダウンリストでMaven CentralかSpark Packagesを選択します。
- オプションで、Releasesカラムでパッケージバージョンを選択します。
- パッケージの隣の + Select をクリックします。選択したパッケージとバージョンでCoordinateフィールドが埋められます。
-
-
オプションでRepositoryフィールドにMavenリポジトリのURLを入力します。
注意
内部Mavenはサポートされていません。 -
Exclusionsフィールドで、オプションで除外したい依存ライブラリの
groupId
とartifactId
を指定します。例えば、log4j:log4j
のようになります。 -
Createをクリックします。ライブラリのステータススクリーが表示されます。
-
オプションで、クラスターにライブラリをインストールします。
CRANパッケージ
- Library SourceのボタンリストでCRANを選択します。
- Packageフィールドにパッケージ名を入力します。
- RepositoryフィールドにオプションでCRANリポジトリのURLを入力します。
- Createをクリックします。ライブラリのステータススクリーが表示されます。
- オプションで、クラスターにライブラリをインストールします。
注意
CRANミラーは最新バージョンのライブラリを提供しています。結果として、異なるタイミングで異なるクラスターにライブラリをアタッチした場合、異なるバージョンのRパッケージが存在することになるかもしれません。DatabricksにおけるRパッケージのバージョンを固定する方法に関しては、Knowledge Baseをご覧ください。
ワークスペースライブラリ詳細の参照
- ライブラリを格納するワークスペースフォルダに移動します。
- ライブラリ名をクリックします。
稼働中のクラスターとライブラリのインストール状況を表示するライブラリ詳細ページが表示されます。ライブラリがインストールされている場合、パッケージのホストへのリンクがページに表示されます。ライブラリがアップロードされた場合には、アップロードされたパッケージファイルへのリンクが表示されます。
ワークスペースライブラリの移動
- ライブラリを格納するワークスペースフォルダに移動します。
- ライブラリ名の右にある下向き矢印をクリックし、Moveを選択します。フォルダブラウザが表示されます。
- 移動先のフォルダを選択します。
- Selectをクリックします。
- Confirm and Moveをクリックします。
ワークスペースライブラリの削除
重要!
ワークスペースライブラリを削除する前に、すべてのクラスターからアンインストールする必要があります。
ワークスペースライブラリを削除するには以下を実行します。
- ライブラリをTrashフォルダに移動します。
- Trashフォルダのライブラリを永久に削除するか、Trashフォルダを空にします。