LoginSignup
1
0

More than 1 year has passed since last update.

アノテーションツール: Labelbox on Databricksセットアップガイド

Posted at

Labelbox Setup guide| Databricks on AWS[2022/01/26時点]の翻訳です。

はじめに

Labelboxは、画像、ビデオ、オーディオ、テキストからトレーニングデータを作成するために使用されるトレーニングデータプラットフォームです。Labelboxを使用することで、AIチームはデータのラベリング、データのカタログ化、モデルのデバッグを単一の統一されたプラットフォームで運用、管理、改善するためのワークフローをカスタマイズすることができます。Labelboxは、AIチームがプロダクショングレードの機械学習システムを構築・運用できるように設計されています。

Databricks RuntimeのMachine Learningバージョンを搭載したDatabricksクラスターをLabelboxに接続することができます。

Partner Connectを使用してLabelboxに接続する

注意 Labelboxタイルにチェックマークが付いている場合は、ワークスペース内の他のユーザーがこのワークスペースにMLクラスタを作成し、関連するDatabricksサービス・プリンシパルを作成していることを意味し、ワークスペース内のWorkspace/Shared/labelbox_demoフォルダにlabelbox_databricks_exampleというノートブックが既に追加されているはずです。その場合はLabelboxに手動で接続します。

  1. Databricks のアカウント、ワークスペース、サインインしているユーザーのすべてが Partner Connectの要件を満たしていることを確認します。
  2. サイドバーのPartner Connectをクリックします。
  3. Labelboxタイルをクリックします。
  4. パートナーへの接続画面で、次へをクリックします。パートナーコネクトでは、ワークスペースに以下のリソースが作成されます。
    • LABELBOX_CLUSTERという名前のMLクラスタ(デフォルト)。(次へをクリックする前に、このデフォルト名を変更することができます。)
    • LABELBOX_USERという名前のDatabricksサービス・プリンシパル
  5. Emailには、新しいLabelboxアカウントに使用するメールアドレスを入力します。
  6. Connect to Labelboxをクリックします。
  7. 画面上の指示に従って、新しいLabelboxアカウントにSign Upします。
  8. 新しいLabelboxアカウントにサインインすると、Partner Connectによってワークスペースに以下のリソースが作成されます(まだ存在していない場合)。
    • LABELBOX_USERサービスプリンシパルに関連付けられたDatabricksパーソナルアクセストークン
    • ワークスペース/共有/LABELBOX_DEMOフォルダ内のlabelbox_databricks_example.ipynbという名前のノートブック。
  9. LabelboxアカウントのAPIキーを持っていない場合は、Labelbox APIキーを作成します。APIキーをコピーして、安全な場所に保存してください。
  10. MLクラスタとLabelboxスターターノートブックのセットアップに進みます。

Labelboxへの接続

ここでは、LabelboxをDatabricksクラスタに接続する方法を説明します。

注意 Partner Connectを使用した場合の方がより早くセットアップできます。

  1. Databricks RuntimeのMachine Learningバージョンを搭載した利用可能なクラスタが必要です。既存のクラスターについてこれを確認するには、ワークスペースでクラスターを表示したときに、Runtime列でMLを探します。利用可能なMLクラスタがない場合は、クラスタを作成し、Databricks Runtime Versionで、MLリストからバージョンを選択します。
  2. Labelboxのページにアクセスして、新しいLabelboxアカウントにSign Upするか、既存のLabelboxアカウントにLog Inします。
  3. LabelboxアカウントのAPIキーをお持ちでない方は、Labelbox APIキーを作成してください。APIキーをコピーして、安全な場所に保存してください。後で必要になります。
  4. ワークスペースにLabelboxスターターノートブックがあるか確認します。

    1. Databricksのワークスペースで、「Data Science & Engineering」または「Databricks Machine Learning」の環境にいることを確認します。必要に応じて、サイドバーのペルソナ切り替え機能を使用します。
    2. サイドバーでワークスペースSharedをクリックします。
    3. labelbox_demoという名前のフォルダがまだ存在しない場合は作成します。
      1. Sharedの隣にある下矢印をクリックします。
      2. 作成フォルダをクリックします。
      3. labelbox_demo と入力します。
      4. フォルダを作成をクリックします。
    4. labelbox_demoフォルダをクリックします。labelbox_databricks_example.ipynb という名前のスターターノートブックがフォルダ内に存在しない場合はインポートします。
      1. labelbox_demoの横にある下向き矢印をクリックします。
      2. インポートをクリックします。
      3. URLをクリックします。
      4. https://github.com/Labelbox/labelbox-python/blob/develop/examples/integrations/databricks/labelbox_databricks_example.ipynb を入力し、インポートをクリックします。
  5. MLクラスターとLabelboxスターターノートブックのセットアップに進みます。

MLクラスターとLabelboxスターターノートブックのセットアップ

注意 Partner Connectを使用してLabelboxに接続した場合、MLクラスタの名前はLABELBOX_CLUSTERである必要があります。

  1. Databricksのワークスペースで、「Data Science & Engineering」または「Databricks Machine Learning」の環境にいることを確認します。必要に応じて、サイドバーのペルソナ切り替え機能を使用します。
  2. 必要なLabelboxライブラリがMLクラスタにインストールされていることを確認します。
    1. サイドバーのComputeをクリックします。
    2. お使いのMLクラスターをクリックします。必要に応じて、フィルターボックスを使用して検索します。
    3. Librariesタブをクリックします。
    4. ラベルボックスのパッケージが表示されていない場合は、インストールします。
      1. 新規インストールをクリックします。
      2. PyPIをクリックします。
      3. Packageにlabelboxと入力します。
      4. インストールをクリックします。
    5. labelsparkパッケージが表示されていない場合は、インストールします。
      1. 新規インストールをクリックします。
      2. PyPIをクリックします。
      3. Packageにlabelsparkと入力します。
      4. インストールをクリックします。
  3. MLクラスタをスターターノートブックに接続します。
    1. サイドバーで「ワークスペース」→「共有」→「labelbox_demo」→「labelbox_databricks_example.ipynb」をクリックします。
    2. MLクラスターをノートブックに取り付けます。
  4. ノートブックを見て、Labelboxの自動化の方法を学びます。

詳しくは、GitHubのスターターノートブックのREADMEをご覧ください。また、Labelbox Docsもご覧ください。

参考

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0