Access data products in Databricks Marketplace | Databricks on AWS [2023/3/10時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
プレビュー
本機能はプライベートプレビューです。Databricks担当者にお問い合わせください。
概要
Databricksマーケットプレースは、皆様がデータコンシューマーとして組織の成功に必要なデータ製品を発見するセキュアなプラットフォームを提供します。Databricksマーケットプレースは、共有データに対するセキュリティやコントロールを提供するためにDelta Sharingを活用しています。コンシューマーは公開データ、フリーのサンプルデータ、商用化されたデータのオファリングにアクセスすることができます。データセットに加えて、コンシューマはデータ探索プロセスをキックスタートするためのDatabricksノートブックのような追加の分析アセットを活用することができます。
始める前に
Databricksマーケットプレースでデータ製品を参照するには、以下が必要です:
- Databricksアカウントとワークスペース。
データ製品を活用するには、以下が必要です:
-
プレミアムプラン以上のDatabricksアカウント。
-
Databricksアカウントに設定されたUnity Catalogメタストア
Unity Catalogメタストアの使い方を学ぶには、Get started using Unity Catalogをご覧ください。
メタストア作成に必要な権限:
- IAMロール、IAMポリシー、S3バケット、クロスアカウント信頼関係を作成、更新する権限を持つAWSアカウントユーザー。
- Databricksアカウント管理者。Manage users, service principals, and groupsをご覧ください。
-
Databricksアカウントで有効化されたDelta Sharing
Delta Sharingの有効化に関しては、Enable Delta Sharing for your accountをご覧ください。
Delta Sharing有効化に必要な権限: Databricksアカウント管理者 -
Unity Catalogが有効化されたDatabricksワークスペース
ワークスペースでUnity Catalogを有効化するには、ワークスペースをUnity Catalogメタストアにアタッチします。詳細は、Enable a workspace for Unity Catalogをご覧ください。
ワークスペース作成に必要な権限: Databricksアカウント管理者
-
Unity Catalogメタストアに対する
CREATE CATALOG
とUSE PROVIDER
権限、あるいはmetastore adminであること。これらの権限がない場合は、Databricksアカウント管理者あるいはメタストア管理者に権限付与を依頼してください。Unity Catalog privileges and securable objectsをご覧ください。
Databricksマーケットプレースのリスティングのブラウズ
必要なデータを見つけ出すには、Databricksマーケットプレースに一覧されているデータ製品をシンプルにブラウズ、検索します。
- Databricksワークスペースにログインします。
- サイドバーで、Marketplaceアイコンをクリックします。
- 必要とするデータ製品をブラウズ、検索します。
プロバイダー名、カテゴリー、キーワード検索でリスティングをフィルタリングすることができます。
マーケットプレースのデータ製品へのアクセスをリクエスト
いくつかのデータ製品はリクエストを行い、条項に同意いただくとすぐに利用できます。これらのデータ製品にはリスティングにGet dataオプションが含まれています。
他のデータ製品は、プロバイダーのインタフェースを用いたプロバイダーの承認とトランザクションの完了が必要となる場合があります。これらのデータ製品にはRequest for dataオプションが含まれます。クリックすると、リクエストをデータプロバイダーに送信するためのフォームを記入するプロンプトが表示されます。プロバイダーがリスティングを承認すると、データを取得できるようになります。
マーケットプレースからデータへのアクセスをリクエストすると、データセットのCatalog nameが求められます。カタログはUnity Catalogのデータの最上位のコンテナです。データプロバイダーが共有データを提供すると、カタログにデータが表示されるようになります。当該カタログのすべてのテーブルは、名前空間<catalog-name>.<schema-name>.<table-name>
を使用します。
Databricksマーケットプレース上では、商用トランザクションは直接取り扱われません。リスティングが無料でない場合、プロバイダーがメール経由で、価格の条項とトランザクション詳細に関して直接コンタクトを取ります。
共有データへのアクセス
無事にデータを受領すると、データエクスプローラ、Databricks CLI、DatabricksノートブックやDatabricks SQLエディター上でのSQL文を用いて、共有データを格納しているカタログにアクセスできるようになります。
Unity Catalogにある他のデータと同じように、スキーマ、テーブル、行列レベルでカタログに対するアクセスを許可、改善することができます。Manage privileges in Unity Catalogをご覧ください。
共有カタログにあるテーブルデータは読み取りのみであり、DESCRIBE
、SHOW
、SELECT
のような読み込みオペレーションを実行できることを意味します。
Delta Sharingを用いて共有されているデータの参照方法の詳細については、Access data in a shared tableをご覧ください。Databricksマーケットプレースがあなたに代わって処理を行うので、カタログ作成方法を説明するセクションをスキップすることができます。
既知の問題
プライベートプレビューにおけるデータ利用で既知の問題がいくつかあります。
- 共有データ製品を格納するカタログを削除すると、同じメタストアに当該製品を再インストールすることができません。しかし、他のメタストアにインストールすることは可能です。
- データプロバイダーによってアクセスリクエストが却下されると、再度同じデータ製品にリクエストすることはできません。この問題に直面した際には、プロバイダーあるいはDatabricks担当者にお問い合わせください。
- 埋め込まれているノートブックは読み込みのみです。
- メタストア管理者ではない、
CREATE CATALOG
権限を持たない場合、以下のエラーメッセージに遭遇します。「Delta Sharing provider not found for metastore<cloud>:<metastoreID>
」このエラーメッセージをよりわかりやすいものにするために現在取り組んでいます。
フィードバックを共有ください
Databricksマーケットプレースについてどう思うかをぜひお聞かせください。
- 質問や一般的なコメントに関しては、
dataconsumers@databricks.com
にメールをお送りください。もちろん、いつでもミーティングを持たせていただければと思います。 - マーケットプレースにデータセットが追加された方が良いでしょうか。ぜひお知らせください。