What's New With Databricks Unity Catalog at the Data & AI Summit 2022 - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
すべてのデータ資産に対する統合ガバナンス
レイクハウスの全てのデータ資産に対する統合ガバナンスソリューションであるUnity Catalogが数週間以内にAWSとAzureでGAになることを発表できて嬉しく思っています。現時点では、Databricksアカウントチームに連絡してパブリックプレビューに参加する必要があります。
以前のブログ記事では、統治されたレイクハウスに対するビジョンと、Unity Catalogがどのようにお客様における大規模ガバナンスをシンプルにするのかを説明しました。本記事では、最新のUnity Catalogの機能アップデートと成長するパートナーエコシステムを説明します。
Data & AI Summitで発表されたUnity Catalogの新機能
すべてのワークロードに対するデータリネージュの自動化
今ではUnity Catalogは、任意の言語で実行されたクエリーにまたがるデータリネージュを追跡します。データリネージュは、ノートブック、ダッシュボード、ジョブのようなキーのアセットを追跡しつつも、テーブルとカラムレベルまでを捕捉します。リネージュは、テーブルの変更によるデータ利用者へのインパクトの評価や、レイクハウスのデータを理解するために使用できるドキュメントの自動生成など新たにいくつかのユースケースの可能性を拓きます。詳細に関しては、最近のブログ記事をご覧ください。
ビルトインのデータ検索、発見
今のUnity Catalogには、ビルトインの検索機能が含まれています。データがUnity Catalogに登録されると、エンドユーザーは分析に必要なデータを特定するために、容易にテーブル名、カラム名、コメントを含むメタデータのフィールドに対する検索を行うことができます。この検索機能は自動的にUnity Catalogのガバナンスモデルを活用します。エンドユーザーは自分がアクセスできるデータに対する検索結果のみを参照できるので、ユーザーの生産性を改善すると共に、機微なデータが保護されていることを確実にしたいデータ管理者には重要なコントロール機能を提供します。
以下のリンクをクリックすると別タブで動画が再生されます
Unity Catalogにおける検索、発見
権限継承でアクセスコントロールのシンプルに
Unity Catalogでは、UIあるいはSQL経由でデータへのアクセスをコントロールできるシンプルなモデルを提供します。今回我々は、データ管理者がシングルクイックあるいはSQL文で1000ものテーブルへのアクセスを設定できるようにこのモデルを拡張しました。オブジェクトのカタログあるいはスキーマ(データベース)全体に対してアクセスポリシーを適用できるようにすることでこれを実現しています。例えば、以下のSQL文を実行することで、main
カタログに現在存在しているテーブルやビュー、そして、今後作成されるもの含めて、ml_team
に読み取りアクセス権を付与します。
GRANT SELECT ON CATALOG main TO ml_team
また、これはカタログやスキーマに対して安全なデフォルトのアクセス権を設定することにもなります。一般的なパターンには、チームに対してデータを格納するスキーマを提供するというものがあります。今では、管理者は当該スキーマにポリシーを設定することで、デフォルトでは全てのチームメンバーが他のユーザーによって作成されたオブジェクトに対して読み取り権限を持つことになります。
情報スキーマ
情報スキーマは、数十年もの間データベースシステムにおいては重要な資産であり続けています。これは例えば、何のテーブルがいつ、誰によって作成されたのか、それぞれのテーブルにどのようなアクセスレベルが設定されているのかなど、データベース内のオブジェクトを説明する事前定義済みのビューのセットです。このメタデータは多くの場合、システムで利用できるデータを理解するためにユーザーによって活用されますが、テーブルごとのアクセスレベルのようなトピックに関するレポートの自動化をするためにも活用されます。Unity Catalogはレイクハウスに情報スキーマのコンセプトを導入します。Unity Catalogで作成するそれぞれのカタログには、カタログを説明するビューのセットを定義するinformation_schema
というスキーマが事前定義されています。これはDBSQLやノートブック環境からクエリーすることができます。
Unity Catalogの情報スキーマ
Unity CatalogにおけるAzureマネージドのアイデンティティ
今では、Unity CatalogではUnity Catalogのメタストアにおけるマネージドストレージ、外部ストレージの両方にアクセスするためにAzure Managed Identityをサポートしています。マネージドアイデンティティは、Azure Active Directory (AAD)をサポートするリソースに接続する際にアプリケーションが使用するアイデンティティを提供するAzureの機能です。これまでは、Unity CatalogはAzure Data Lake Storage (ADLS)のデータへのアクセスを行うためには、サービスプリンシパルに依存していました。マネージドアイデンティティには、サービスプリンシパルと比較して2つの大きな利点があります。第一に、マネージドアイデンティティでは、認証情報の保持やシークレットのローテーションが不要です。第二に、ストレージファイアウォールで保護されているADLSに接続する手段を提供します。
HiveメタストアをUnity Catalogにアップグレードする
今では、Unity Catalogでは、上述した全ての新機能を活用するために、既存のHiveメタストアからシームレスにアップグレードする方法を提供しています!ユーザーは専用のUIでアップグレードする数千のテーブルを一度に選択することができます。このアップグレードツールは、既存のHiveメタストアからUnity Catalogメタストアにテーブルのメタデータをコピーします。また、テーブル定義で使用されているDBFSマウントポイントを自動で解決し、お使いのDatabricksアカウント全体からセキュアにデータにアクセスすることができます。UIよりコードを好む方には、DatabricksクラスターあるいはSQLウェアハウスで動作するSQL構文(CREATE TABLE LIKE…
)を提供しています。
以下のリンクをクリックすると別タブで動画が再生されます
Hiveメタストアのアップグレード
ガバナンス、カタログパートナーと共に
原文を参照ください。Privacera、Immuta、Alation、Collibra、Atlanに言及されています。
AWSとAzure上でUnity Catalogを使い始める
詳細に関しては、Unity Catalogのドキュメント[AWS, Azure]を参照ください。