What’s new with Unity Catalog at Data and AI Summit 2023 | Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
レイクハウスフェデレーション、AIのガバナンス、レイクハウスモニタリング、レイクハウスの観察可能性
データ管理では重要なガバナンスの基本原則である説明責任、コンプライアンス、品質、透明性は、今ではAIでも同様に不可避のものとなっています。Databricksは、クラウド、データプラットフォーム横断のデータとAIに対する業界で唯一の統合ソリューションをリリースすることで、Unity Catalogによる革新的なアプローチを取りました。
企業は、すべてのプラットフォームやクラウドに存在するファイル、テーブル、ノートブック、ダッシュボードに対してセキュアな検索、アクセス、監視、コラボレーションを行うためにUnity Catalogを活用することができます。
我々は、レイクハウスフェデレーション、AIのためのガバナンス、AIによって強化されたガバナンス(レイクハウスモニタリング、レイクハウスの観察可能性)などのUnity Catalogにおける最先端の改善点を発表できることを嬉しく思っています。
Databricks Unity Catalog
レイクハウスフェデレーション: あなたのデータがどこにあろうとも発見、管理、クエリー
Lakehouse Federationによって、企業はオープンかつ高パフォーマンス、セキュアなデータメッシュアーキテクチャを構築できるようにします。レイクハウスフェデレーションを用いることで、企業はMySQL、PostgreSQL、Amazon Redshift、Snowflake、Azure SQL Database、Azure Synapse、Google BigQueryなどを含む様々なプラットフォームに存在している自分たちのすべてのデータに対して、すべてDatabrikcs内で一貫性のあるデータ管理、データ発見、ガバナンス体験を活用することができます。さらに、行列レベルのアクセスコントロール、タグやデータリネージのような検索機能と組み合わせることで、Unity Catalogの高度なセキュリティ機能は、これらの外部のデータソースにも拡張され、一貫性のあるガバナンスプラクティスを確実なものとします。
Unity Catalogにおけるレイクハウスフェデレーション
AIのためのガバナンス - 一つの屋根の下でデータとAIカタログを統合
また、我々がUnity Catalogにおけるガバナンスモデルを、AI資産とデータの両方に対して統合された方法で包括的な管理を提供するように拡張します。この統合によって、DataOpsとMLOpsプロセスをシンプルにし、必要なすべての機能を一つの集中管理された場所にまとめることで、企業がAIコンプライアンスに備えられるようにします。キーとなるエンハンスには以下のものが含まれます:
Unity Catalogにおける特徴量ストアとモデルレジストリ
7月後半にUnity CatalogのモデルレジストリのパブリックプレビューとFeature Storeのパブリックプレビューを発表しました。この機能によって、Unity Catalogはデータや特徴量からモデルのようなすべてのデータとML資産をを一つのカタログにまとめる唯一のガバナンスソリューションとなり、AIワークフローを通じて完全な可視性ときめ細かいアクセスコントロールを確実なものとします。この統合アプローチは、簡素化されたMLOpsや生産性の改善のための、自動バージョン管理、リネージ追跡、集中管理ガバナンス、シームレスなワークスペース横断のコラボレーションを提供します。さらに、高度なモニタリング能力によって、あなたの全体的なAIワークフローに対して改善された可視性、品質、理解、コントロールを体験することができます。
Unity Catalogでデータと共にMLモデルを発見、管理
Unity Catalogのボリューム: すべての非テーブルデータを管理
画像、音声、動画、PDFファイルのような非テーブルデータへのアクセスを必要とするユースケースは特に機械学習やデータサイエンスワークロードでは多数存在します。
我々はUnity CatalogにおけるVolumesを発表しました。ボリュームはファイルのコレクションをカタログする新たなタイプのオブジェクトであり、非構造化データ、半構造化データ、構造化データを含みフォーマットに関係なくデータの大規模なコレクションを読み込み、処理するスケーラブルなファイルベースのアプリケーション構築の助けとなります。これによって、Unity Catalogのテーブルデータと共に非テーブルエータの管理、統治、リネージの追跡が可能となります。向こう数週間で発表されるボリュームのパブリックプレビューを楽しみにしていてください!
Unity Catalogにおける非テーブルデータの管理
ガバナンスのためのAI: レイクハウスモニタリングとレイクハウスの観察可能性
Unity Catalogは堅牢なガバナンス能力を提供するだけでなく、ガバナンスワークフローを最適化するためにAIのパワーを活用します。キーとなる強化内容は以下の通りです:
レイクハウスモニタリング: あなたの企業のデータとAI資産の品質を監視
データとAIモデルを信頼できるようにすることは、すべての企業の成功において最重要なことです。この重要な要件に対応するために、データ、MLモデル、特徴量を含むデータパイプラインすべてを包含するAIドリブンのモニタリングサービスであるDatabricks Lakehouse Monitoringを導入しました。
Databricksレイクハウスモニタリングは、我々が最近買収したOkeraによるAIベースのデータ分類技術を用いて、個人特定可能情報(PII)の自動分類、自動特定を含む、データとMLモデルパイプラインにおける品質問題やエラーに対するプロアクティブなアラートを提供します。さらに、データチームは自動生成されるダッシュボードを通じて、ステークホルダーに包括的なデータとML品質レポートを簡単に共有することができます。
Unity Catalogのプロアクティブレポート
最後に、データチームは、Unity Catalogのカラムレベルまで追跡するリアルタイムのデータリネージをカツオ湯することで、モニタリングレポートで特定されたすべての問題の効果的なデバッグやインパクト評価を行うことができます。これは、包括的なエンドツーエンドのソリューションを提供することで、モニタリングや診断ワークフローを円滑にします。
リネージを活用した根本原因とインパクトの評価
レイクハウスの観察可能性: レイクハウスのすべての側面に対するシステムテーブルと ダッシュボード
観察可能性は、データやAIのワークロードにおいては重要な側面となります。この要件に対応するために、Unity Catalogにおける監査、リネージ、課金のためのシステムテーブルのパブリックプレビューを発表し、今年後半にはテーブルが追加される予定です。
システムテーブルは、包括的なコストと使用量の分析を提供し、リソース消費や支出に関する価値のある洞察を提供します。さらに、システムテーブルによって、ユーザーはジョブ、ノートブック、クラスター、SQL/MLエンドポイントの監査分析が可能となり、データリネージやアクセス権源を追跡できるようになります。任意の言語でUnity Catalogのシステムテーブルを容易にクエリーできるようになることで、ユーザーはカスタムダッシュボードやノートブックを構築し、オペレーションデータをアクション可能な洞察に変換するためにAIのパワーを活用できるようになります。最後に、ユーザーはさらに、ROIの改善を自分自身のエンドツーエンドのインテリジェントなデータアプリケーションライフサイクルでドライブするために、DBSQLアラートを用いてこのインテリジェンスをさらにオペレーションで活用することができます。
Unity Catalogにおけるシステムテーブルを用いたレイクハウスの観察可能性
レイクハウスのガバナンスにおけるその他の改善
行列レベルのデータセキュリティ
きめ細かいレベルで効果的にデータセキュリティを強化するために、Unity Catalogは行のフィルタリングと列のマスキングを提供します。ユーザーは行のフィルターや列のマスクぉ定義するために標準的なSQL関数を活用できr、個々の行・列レベルでのきめ細かいアクセスコントロールを実現します。この機能はプライベートプレビューであり、今年7月後半にパブリックプレビューとなります。
データ分類のためのタグ
Unity Catalogは単なる発見の先を行き、データに関する文脈的な洞察を提供し、ユーザーが即座に分析やAIの取り組みを始め、加速できるようにします。ユーザーは、資産を理解し、人気度に関する洞察を得て、ドメイン専門家や頻繁に使用されるノートブック/クエリー/joinを特定し、データの補強を簡単なものにするために、容易にデータ資産の説明文の記述やタグ付けを行うことができます。
Unity Caatlogにおけるデータの洞察
LakehouseIQ: 皆様ののビジネスを個別に理解するAI強化エンジン
また、我々は皆様のビジネス固有のニュアンスと皆様のデータの複雑なレイヤーを学習し、自然言語を用いて適切なタイミングで適切なデータにアクセスできるようにする知識エンジンであるLakehouseIQを発表しました。LakehouseIQは、Unity Catalogによって支えられており、企業の内部セキュリティやガバナンスポリシーが一貫性を持って強制されることを保証しつつも、AIによって活用されるメタデータやリネージを提供します。
Databricks Unity Catalogを使い始める
皆様のレイクハウスアーキテクチャの基礎としてUnity Catalogを導入することで、あなたのデータ&AI領域全体に渡る柔軟でスケーラブルなガバナンス実装のパワーを解き放つことができます。使い始めるには、AWS、Azure、GCPで利用できるUnity Catalogのガイドに従ってください。
詳細を学ぶにはDatabricksの共同創始者、チーフテクノロジーオフィサーであるMatei ZahariaのData+AI Summit 2023キーノートをご覧ください。Data+AI Summitに登録し、最高のデータ&AIガバナンスセッションを探索してください。