Labelbox Setup guide| Databricks on AWS[2022/01/26時点]の翻訳です。
はじめに
Labelboxは、画像、ビデオ、オーディオ、テキストからトレーニングデータを作成するために使用されるトレーニングデータプラットフォームです。Labelboxを使用することで、AIチームはデータのラベリング、データのカタログ化、モデルのデバッグを単一の統一されたプラットフォームで運用、管理、改善するためのワークフローをカスタマイズすることができます。Labelboxは、AIチームがプロダクショングレードの機械学習システムを構築・運用できるように設計されています。
Databricks RuntimeのMachine Learningバージョンを搭載したDatabricksクラスターをLabelboxに接続することができます。
Partner Connectを使用してLabelboxに接続する
注意
Labelboxタイルにチェックマークが付いている場合は、ワークスペース内の他のユーザーがこのワークスペースにMLクラスタを作成し、関連するDatabricksサービス・プリンシパルを作成していることを意味し、ワークスペース内のWorkspace/Shared/labelbox_demoフォルダにlabelbox_databricks_exampleというノートブックが既に追加されているはずです。その場合はLabelboxに手動で接続します。
- Databricks のアカウント、ワークスペース、サインインしているユーザーのすべてが Partner Connectの要件を満たしていることを確認します。
- サイドバーのPartner Connectをクリックします。
- Labelboxタイルをクリックします。
- パートナーへの接続画面で、次へをクリックします。パートナーコネクトでは、ワークスペースに以下のリソースが作成されます。
- LABELBOX_CLUSTERという名前のMLクラスタ(デフォルト)。(次へをクリックする前に、このデフォルト名を変更することができます。)
- LABELBOX_USERという名前のDatabricksサービス・プリンシパル。
- Emailには、新しいLabelboxアカウントに使用するメールアドレスを入力します。
- Connect to Labelboxをクリックします。
- 画面上の指示に従って、新しいLabelboxアカウントにSign Upします。
- 新しいLabelboxアカウントにサインインすると、Partner Connectによってワークスペースに以下のリソースが作成されます(まだ存在していない場合)。
- LABELBOX_USERサービスプリンシパルに関連付けられたDatabricksパーソナルアクセストークン。
- ワークスペース/共有/LABELBOX_DEMOフォルダ内のlabelbox_databricks_example.ipynbという名前のノートブック。
- LabelboxアカウントのAPIキーを持っていない場合は、Labelbox APIキーを作成します。APIキーをコピーして、安全な場所に保存してください。
- MLクラスタとLabelboxスターターノートブックのセットアップに進みます。
Labelboxへの接続
ここでは、LabelboxをDatabricksクラスタに接続する方法を説明します。
注意
Partner Connectを使用した場合の方がより早くセットアップできます。
-
Databricks RuntimeのMachine Learningバージョンを搭載した利用可能なクラスタが必要です。既存のクラスターについてこれを確認するには、ワークスペースでクラスターを表示したときに、Runtime列でMLを探します。利用可能なMLクラスタがない場合は、クラスタを作成し、Databricks Runtime Versionで、MLリストからバージョンを選択します。
-
Labelboxのページにアクセスして、新しいLabelboxアカウントにSign Upするか、既存のLabelboxアカウントにLog Inします。
-
LabelboxアカウントのAPIキーをお持ちでない方は、Labelbox APIキーを作成してください。APIキーをコピーして、安全な場所に保存してください。後で必要になります。
-
ワークスペースにLabelboxスターターノートブックがあるか確認します。
- Databricksのワークスペースで、「Data Science & Engineering」または「Databricks Machine Learning」の環境にいることを確認します。必要に応じて、サイドバーのペルソナ切り替え機能を使用します。
- サイドバーでワークスペース>Sharedをクリックします。
- labelbox_demoという名前のフォルダがまだ存在しない場合は作成します。
- Sharedの隣にある下矢印をクリックします。
- 作成>フォルダをクリックします。
- labelbox_demo と入力します。
- フォルダを作成をクリックします。
- labelbox_demoフォルダをクリックします。labelbox_databricks_example.ipynb という名前のスターターノートブックがフォルダ内に存在しない場合はインポートします。
- labelbox_demoの横にある下向き矢印をクリックします。
- インポートをクリックします。
- URLをクリックします。
- https://github.com/Labelbox/labelbox-python/blob/develop/examples/integrations/databricks/labelbox_databricks_example.ipynb を入力し、インポートをクリックします。
-
MLクラスターとLabelboxスターターノートブックのセットアップに進みます。
MLクラスターとLabelboxスターターノートブックのセットアップ
注意
Partner Connectを使用してLabelboxに接続した場合、MLクラスタの名前はLABELBOX_CLUSTERである必要があります。
- Databricksのワークスペースで、「Data Science & Engineering」または「Databricks Machine Learning」の環境にいることを確認します。必要に応じて、サイドバーのペルソナ切り替え機能を使用します。
- 必要なLabelboxライブラリがMLクラスタにインストールされていることを確認します。
- サイドバーのComputeをクリックします。
- お使いのMLクラスターをクリックします。必要に応じて、フィルターボックスを使用して検索します。
- Librariesタブをクリックします。
- ラベルボックスのパッケージが表示されていない場合は、インストールします。
- 新規インストールをクリックします。
- PyPIをクリックします。
- Packageにlabelboxと入力します。
- インストールをクリックします。
- labelsparkパッケージが表示されていない場合は、インストールします。
- 新規インストールをクリックします。
- PyPIをクリックします。
- Packageにlabelsparkと入力します。
- インストールをクリックします。
- MLクラスタをスターターノートブックに接続します。
- サイドバーで「ワークスペース」→「共有」→「labelbox_demo」→「labelbox_databricks_example.ipynb」をクリックします。
- MLクラスターをノートブックに取り付けます。
- ノートブックを見て、Labelboxの自動化の方法を学びます。
詳しくは、GitHubのスターターノートブックのREADMEをご覧ください。また、Labelbox Docsもご覧ください。
参考