2
0

More than 1 year has passed since last update.

Unity CatalogにアクセスできるクラスターとSQLウェアハウスの作成

Last updated at Posted at 2022-12-20

Create clusters & SQL warehouses with Unity Catalog access | Databricks on AWS [2022/12/16時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

本書では、Untiy CatalogのデータにアクセスできるDatabricksクラスターやSQLウェアハウスをどのように作成するのかを説明します。

SQLウェアハウスは、クエリー、ダッシュボード、ビジュアライゼーションのようなDatabricks SQLのワークロードの実行に使用されます。お使いのワークスペースがUnity Catalogのメタストアにアタッチされているのであれば、SQLウェアハウスを用いることで、デフォルトでUnity Catalogのデータにアクセスでき、Unity Catalog固有のコマンドを実行することができます。

クラスターは、Data Science & EngineeringやDatabricks Machine Learningのペルソナベースの環境におけるワークロードの実行に使用されます。Unity Catalogにアクセスできるクラスターを作成するためには、クラスターを作成するワークスペースがUnity Catalogメタストアにアタッチされ、Unity Catalogを使用できるアクセスモード(共有あるいはシングルユーザー)を使用しなくてはなりません。

利用している環境に応じて、これらの計算資源を用いてUnity Catalogのデータを操作することができます: Databricks SQLではSQLウェアハウス、Data Science & EngineeringやDatabricks Machine Learning環境ではクラスターとなります。

注意
プレビューで利用できるクラスター設定UIの変更に関しては、Create a clusterをご覧ください。

クラスターアクセスモードとは?

Databricksでクラスターを作成する際、クラスターを使用しようとしているワークロードのタイプ固有のアクセスモードを選択しなくてはなりません。Unity Catalogは特定のクラスターアクセスモードを用いたセキュリティを強制します。クラスターがUnity Catalogを使用できるアクセスモード(共有あるいはシングルユーザー)のいずれかを設定されていない場合、クラスターはUnity Catalogのデータにアクセスすることはできません。

以下の表では利用可能なアクセスモードを一覧しています:

アクセスモード ユーザーへの表示 UCのサポート サポート言語 説明
シングルユーザー 常時 Yes Python, SQL, Scala, R 単一のユーザーのみ割り当てることができます。読み込みを行うには、参照するすべてのテーブルやビューに対するSELECT権限を持つ必要があります。クレデンシャルパススルーはサポートされません。
共有 常時(プレミアムプランが必要) Yes Python(Databricksランタイム11.1以降), SQL Initスクリプト、サードパーティライブラリ、JARSはサポートされません。Spark-submitジョブはサポートされません。クレデンシャルパススルーはサポートされません。
分離なし共有 管理者は、管理コンソールでユーザー分離を強制することでこのクラスタータイプを非表示にすることができます。 No Python, SQL, Scala, R 分離なし共有クラスターに関連するアカウントレベルの設定があります。
カスタム (すべての新規クラスターにおいて)非表示 No Python, SQL, Scala, R 特定のアクセスモードを持たない既存クラスターを持っている場合にのみこのオプションが表示されます。

クラスターアクセスモードをシングルユーザー共有に設定することで、Unity Catalogの要件を満たすように既存クラスターをアップグレードすることができます。

要件

Unity Catalogにアクセスできるクラスターの作成

クラスターはノートブックや自動ジョブの実行ワークロード向けに設計されています。

Unity Catalogにアクセスできるクラスターを作成するには、ワークスペースがUnity Catalogメタストアにアタッチされている必要があります。

Databricksランタイムの要件

Unity CatalogではDatabricksランタイム11.1以降が動作しているクラスターが必要となります。

以前のバージョンのDatabricksランタイムはプレビューバージョンのUnity Catalogをサポートしていました。以前のバージョンのDatabricksランタイムが動作しているクラスターでは、Unity CatalogのGAの機能の全てをサポートしていません。

ステップ

クラスターを作成するには:

  1. サイドバーでペルソナスイッチャーを使用して、Data Science and EngineeringかMachine Learningを選択します。
  2. サイドバーでNew > Clusterをクリックします。
  3. 使用したいアクセスモードを選択します。

    標準的なDatabricksランタイムバージョンを実行するクラスターにおいては、Unity Catalogに接続するためにシングルユーザー共有アクセスモードを選択します。Databricks機械学習ランタイムを使用している場合には、Unity Catalogに接続するためにシングルユーザーアクセスモードを選択する必要があります。クラスターアクセスモードとは?をご覧ください。
  4. Databricksランタイム11.1以降を選択します。
  5. クラスター設定を完了し、Create Clusterをクリックします。

クラスターが利用できるようになると、Unity Catalogを用いたワークロードを実行できるようになります。

Unity CatalogにアクセスできるSQLウェアハウスの作成

SQLウェアハウスは、クエリー、ダッシュボード、ビジュアライゼーションのようなDatabricks SQLのワークロードの実行に使用されます。すべてのSQLウェアハウスはデフォルトでUnity Catalogのデータにアクセスできます。固有の設定オプションに関しては、SQLウェアハウスの作成をご覧ください。

次のステップ

Databricks 無料トライアル

Databricks 無料トライアル

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0