How does the lakehouse improve data discovery and collaboration? | Databricks on AWSの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksは様々なデータユーザーが大規模なデータを発見、分析するのを支援することで、企業が洞察に至る時間を短縮するためにUnity Catalogを設計しました。データスチュワードは、Unity Catalogで様々なエンドユーザーのチームに対してデータ資産に対するアクセスをセキュアに許可することができます。すると、これらのユーザーは、チーム横断で共有できる派生データセット、モデル、ダッシュボードを作成するために、SQL、Pythonのような様々な言語やツールを活用することができます。
大規模システムにおける権限管理
Unity Catalogは、カタログ、データベース、テーブル、ビューに対する権限をユーザーグループに割り当てる統合された場所を提供します。権限やメタストアはワークスペース横断で共有されるので、管理者がアイデンティティプロバイダーから同期されるグループに一度セキュリティ権限を設定すると、どのDatabricksワークスペースにログインしたとしても、エンドユーザーは適切なデータにのみアクセスできることを認識できます。
また、Unity Catalogを用いることで、管理者はクラウドストレージインフラストラクチャで権限を格納、共有するセキュアな手段であるストレージ資格情報を定義できるようになります。企業内のパワーユーザーに対してこれらのセキュリティ保護可能なオブジェクトに対する権限を付与し、クラウドオブジェクトストレージの格納場所に対して外部ロケーションを定義することで、データエンジニアはクラウドアカウントコンソールで強い権限を与えることなしに、新たなワークロードに対してセルフサービスすることができます。
Databricksにおけるデータの発見
データエクスプローラを用いることで、ユーザーはUnity Catalogで利用可能なデータオブジェクトをブラウズすることができます。データエクスプローラは、ユーザーがクエリーできる権限を持っているカタログ、データベース、テーブル、ビューしか参照できないように、Unity Catalog管理者によって設定された権限を使用します。ユーザーが興味のあるデータセットを見つけると、フィールド名や型、テーブルを確認し、個々のフィールドのコメントを読み、データのサンプルをプレビューすることができます。また、データがいつどのように変更されたのかを理解するためにテーブルの完全な履歴を確認することもでき、リネージュ機能によって、ユーザーは特定のデータセットがどのように前段のジョブから生成され、後段のジョブでどのように使用されているのかを追跡することができます。
また、ストレージ資格情報と外部ロケーションもデータエクスプローラに表示されるので、それぞれのユーザーは利用可能なロケーションやリソースに渡るデータを読み書きするために必要な権限を完全に理解することができます。
レイクハウスによるプロダクションへの到達時間の短縮
DatabricksではSQL、Python、Scala、Rのワークロードをサポートしており、様々なスキルセットや技術的バックグラウンドを持つユーザーが、分析による洞察を引き出すために自身の知識を活用することが可能となります。プロダクションのジョブを定義するためにDatabricksでサポートされているすべての言語を使用することができ、ノートブックでは言語を組み合わせて活用することができます。これは、ほぼ工数なしに、SQLアナリストによって記述された最終ステップのETLクエリーをプロダクションのデータエンジニアリングコードにプロモーションできることを意味します。企業のペルソナによって定義されたクエリーとワークロードは同じデータセットを活用するので、他のチームとコードや結果を共有する前にフィールド名を一致させたりする必要はなく、ダッシュボードは常に最新の状態となります。同一のスケーラブルなクラウドインフラストラクチャによって下支えされ、同じ整理されたデータソースに対して定義されているので、コード、ノートブック、クエリー、ダッシュボードすべてをセキュアに共有することができます。