Create clusters & SQL warehouses with Unity Catalog access | Databricks on AWS [2022/12/16時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書では、Untiy CatalogのデータにアクセスできるDatabricksクラスターやSQLウェアハウスをどのように作成するのかを説明します。
SQLウェアハウスは、クエリー、ダッシュボード、ビジュアライゼーションのようなDatabricks SQLのワークロードの実行に使用されます。お使いのワークスペースがUnity Catalogのメタストアにアタッチされているのであれば、SQLウェアハウスを用いることで、デフォルトでUnity Catalogのデータにアクセスでき、Unity Catalog固有のコマンドを実行することができます。
クラスターは、Data Science & EngineeringやDatabricks Machine Learningのペルソナベースの環境におけるワークロードの実行に使用されます。Unity Catalogにアクセスできるクラスターを作成するためには、クラスターを作成するワークスペースがUnity Catalogメタストアにアタッチされ、Unity Catalogを使用できるアクセスモード(共有あるいはシングルユーザー)を使用しなくてはなりません。
利用している環境に応じて、これらの計算資源を用いてUnity Catalogのデータを操作することができます: Databricks SQLではSQLウェアハウス、Data Science & EngineeringやDatabricks Machine Learning環境ではクラスターとなります。
注意
プレビューで利用できるクラスター設定UIの変更に関しては、Create a clusterをご覧ください。
クラスターアクセスモードとは?
Databricksでクラスターを作成する際、クラスターを使用しようとしているワークロードのタイプ固有のアクセスモードを選択しなくてはなりません。Unity Catalogは特定のクラスターアクセスモードを用いたセキュリティを強制します。クラスターがUnity Catalogを使用できるアクセスモード(共有あるいはシングルユーザー)のいずれかを設定されていない場合、クラスターはUnity Catalogのデータにアクセスすることはできません。
以下の表では利用可能なアクセスモードを一覧しています:
アクセスモード | ユーザーへの表示 | UCのサポート | サポート言語 | 説明 |
---|---|---|---|---|
シングルユーザー | 常時 | Yes | Python, SQL, Scala, R | 単一のユーザーのみ割り当てることができます。読み込みを行うには、参照するすべてのテーブルやビューに対するSELECT 権限を持つ必要があります。クレデンシャルパススルーはサポートされません。 |
共有 | 常時(プレミアムプランが必要) | Yes | Python(Databricksランタイム11.1以降), SQL | Initスクリプト、サードパーティライブラリ、JARSはサポートされません。Spark-submitジョブはサポートされません。クレデンシャルパススルーはサポートされません。 |
分離なし共有 | 管理者は、管理コンソールでユーザー分離を強制することでこのクラスタータイプを非表示にすることができます。 | No | Python, SQL, Scala, R | 分離なし共有クラスターに関連するアカウントレベルの設定があります。 |
カスタム | (すべての新規クラスターにおいて)非表示 | No | Python, SQL, Scala, R | 特定のアクセスモードを持たない既存クラスターを持っている場合にのみこのオプションが表示されます。 |
クラスターアクセスモードをシングルユーザーや共有に設定することで、Unity Catalogの要件を満たすように既存クラスターをアップグレードすることができます。
要件
- Databricksアカウントはプレミアムプラン以上である必要があります。
- クラスターの作成権限が必要です。Configure cluster creation entitlementをご覧ください。
Unity Catalogにアクセスできるクラスターの作成
クラスターはノートブックや自動ジョブの実行ワークロード向けに設計されています。
Unity Catalogにアクセスできるクラスターを作成するには、ワークスペースがUnity Catalogメタストアにアタッチされている必要があります。
Databricksランタイムの要件
Unity CatalogではDatabricksランタイム11.1以降が動作しているクラスターが必要となります。
以前のバージョンのDatabricksランタイムはプレビューバージョンのUnity Catalogをサポートしていました。以前のバージョンのDatabricksランタイムが動作しているクラスターでは、Unity CatalogのGAの機能の全てをサポートしていません。
ステップ
クラスターを作成するには:
- サイドバーでペルソナスイッチャーを使用して、Data Science and EngineeringかMachine Learningを選択します。
- サイドバーでNew > Clusterをクリックします。
- 使用したいアクセスモードを選択します。
標準的なDatabricksランタイムバージョンを実行するクラスターにおいては、Unity Catalogに接続するためにシングルユーザーか共有アクセスモードを選択します。Databricks機械学習ランタイムを使用している場合には、Unity Catalogに接続するためにシングルユーザーアクセスモードを選択する必要があります。クラスターアクセスモードとは?をご覧ください。 - Databricksランタイム11.1以降を選択します。
- クラスター設定を完了し、Create Clusterをクリックします。
クラスターが利用できるようになると、Unity Catalogを用いたワークロードを実行できるようになります。
Unity CatalogにアクセスできるSQLウェアハウスの作成
SQLウェアハウスは、クエリー、ダッシュボード、ビジュアライゼーションのようなDatabricks SQLのワークロードの実行に使用されます。すべてのSQLウェアハウスはデフォルトでUnity Catalogのデータにアクセスできます。固有の設定オプションに関しては、SQLウェアハウスの作成をご覧ください。