Labelbox | Databricks on AWS [2022/1/12時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Labelboxは画像、音声、テキスト、タイル画像からトレーニングデータを作成する際に使用されるトレーニングデータプラットフォームです。Labelboxを用いることで、AIチームは単一の統合されたプラットフォームでデータラベリング、データカタログ作成、モデルのデバッグをオペレート、管理、改善するためのワークフローをカスタマイズすることができます。Labelboxは、AIチームによるプロダクションレベルの機械学習システムの構築・運用を支援するように設計されています。
Databricks機械学習ランタイムが稼働しているDatabricksクラスターをLabelboxに接続することができます。
Partner ConnectによるLabelboxへの接続
注意
すでにLabelboxのアカウントをお持ちの場合、手動でのLabelboxへの接続までスキップすることをお勧めします。これは、Partner Connectにおける新規接続のエクスペリエンスが新規Labelboxアカウントに最適化されているためです。
-
お使いのDatabricksアカウント、ワークスペース、サインインしているユーザー全てがPartner Connectの要件に合致していることを確認します。
-
Labelboxタイルをクリックします。
注意
Labelboxタイルにチェックマークアイコンがある場合、お使いのワークスペースの他の誰かがすでにMLクラスターと関連するDatabricksサービスプリンシパルを作成しており、ノートブックlabelbox_databricks_example
がワークスペースのWorkspace/Shared/labelbox_demoに追加されていることを意味しています。手動でのLabelboxへの接続までスキップしてください。 -
Connect to partnerダイアログでNextをクリックします。Partner Connectがお使いのワークスペースに以下のリソースを作成します。
-
LABELBOX_CLUSTERという名前のMLクラスター
(Nextをクリックする前にデフォルト名を変更することができます) - LABELBOX_USERという名前のDatabricksサービスプリンシパル
-
LABELBOX_CLUSTERという名前のMLクラスター
-
Emailには、新規Labelboxアカウントに使用したいメールアドレスを入力します。
-
Connect to Labelboxをクリックします。
-
新規Labelboxアカウントでサインアップするための画面上の指示に従います。
-
新規Labelboxアカウントにサインインしたあとで、存在しない場合、Partner Connectはお使いのワークスペースに以下のリソースを作成します。
- サービスプリンシパルLABELBOX_USERと紐づけられるDatabricksパーソナルアクセストークン
-
Workspace/Shared/labelbox_demoフォルダ配下に
labelbox_databricks_example.ipynb
というノートブック
-
お使いのLabelboxアカウントに対するLabelbox APIキーを作成します。最終的にキーは表示されなくなりますので、APIキーをコピーしセキュアな場所に保存します。
-
MLクラスターとLabelboxスターターノートブックのセットアップまでスキップします。
Labelboxへの接続
以下では、LabelboxのDatabricksクラスターへの接続手順を説明します。
注意
より迅速に接続するには、Partner Connectを使ってください。
- Databricks機械学習ランタイムが稼働しているクラスターが必要となります。既存のクラスターを確認するには、ワークスペースのクラスター一覧でRuntime列のMLを参照してください。利用できるMLクラスターがない場合には、クラスターを作成しDatabricks Runtime VersionではMLのリストから選択してください。
- 新規Labelboxアカウントにサインアップするか、既存LabelboxアカウントにログインするためにLabelboxページに移動します。
- Labelbox APIキーがない場合には、お使いのLabelboxアカウントに対するLabelbox APIキーを作成します。最終的にキーは表示されなくなりますので、APIキーをコピーしセキュアな場所に保存します。後ほどこのキーが必要となります。
- ワークスペースのLabelboxスターターノートブックを確認します。
- お使いのDatabricksワークスペースでData Science & EngineeringあるいはDatabricks Machine Learning環境にいることを確認します。必要であればサイドバーのペルソナスイッチャーを使用します。
- サイドバーでWorkspace > Sharedをクリックします。
-
labelbox_demoというフォルダーがない場合には作成します。
- Sharedの隣の下向き矢印をクリックします。
- Create > Folderをクリックします。
-
labelbox_demo
と入力します。 - Create Folderをクリックします。
-
labelbox_demoフォルダーをクリックします。labelbox_databricks_example.ipynbというノートブックが存在しない場合にはインポートします。
- labelbox_demoの隣の下向き矢印をクリックします。
- Importをクリックします。
- URLをクリックします。
-
https://github.com/Labelbox/labelbox-python/blob/develop/examples/integrations/databricks/labelbox_databricks_example.ipynb
と入力しImportをクリックします。
- MLクラスターとLabelboxスターターノートブックのセットアップを実行します。
MLクラスターとLabelboxスターターノートブックのセットアップ
- お使いのDatabricksワークスペースでData Science & EngineeringあるいはDatabricks Machine Learning環境にいることを確認します。必要であればサイドバーのペルソナスイッチャーを使用します。
- お使いのMLクラスターに必要なLabelboxライブラリがインストールされていることを確認します。
- サイドバーでComputeをクリックします。
- お使いのMLクラスターをクリックします。必要に応じてFilterボックスで検索します。
注意
Labelboxへの接続にPartner Connectを使用した場合、MLクラスターの名前はLABELBOX_CLUSTERとなります。 - Librariesタブをクリックします。
-
labelboxライブラリが一覧にない場合にはインストールします。
- Install Newをクリックします。
- PyPIをクリックします。
- Packageにlabelboxと入力します。
- Installをクリックします。
-
labelsparkライブラリが一覧にない場合にはインストールします。
- Install Newをクリックします。
- PyPIをクリックします。
- Packageにlabelsparkと入力します。
- Installをクリックします。
- MLクラスターをスターターノートブックにアタッチします。
- サイドバーでWorkspace > Shared > labelbox_demo > labelbox_databricks_example.ipynbをクリックします。
- ノートブックにMLクラスターをアタッチします。
- どのようにLabelboxを自動化するのかを学ぶためにノートブックを確認します。
詳細については、スターターノートブックのREADMEをご覧くささい。また、Labelbox Docsも参照ください。