以前こちらでベータ版を試しました。
このデータ分類機能がパブリックプレビューになりました!
Databricksデータ分類が現在パブリックプレビューになっており、すべてのカタログタイプをサポートし、すべての分類結果を単一のシステムテーブルに統合し、分類をレビューして自動タグ付けするための新しいUIを提供しています。データ分類を参照してください。
データ分類機能とは?
Unity Catalogのデータ分類は、AIエージェントを使用してカタログ内の機密データを自動的に分類・タグ付けする機能です(パブリックプレビュー段階)。
主な機能
自動分類とタグ付け
- AIエージェントがUnity Catalog内のテーブルを自動的に分類します
- 機密データを検出し、適切なタグを付与します
- Unity CatalogのABAC(属性ベースのアクセス制御)と連携してガバナンス制御を適用できます
インテリジェントスキャン
- Unity Catalogとデータインテリジェンスエンジンを活用してスキャンタイミングを最適化します
- 増分スキャンにより、新しいデータも自動的に分類されます
- 通常、新しいテーブルと列は作成後24時間以内にスキャンされます
コスト最適化
- デフォルトストレージを使用するので、ストレージ料金はかかりません
- 最初のスキャンは増分スキャンで、後続のスキャンよりコストが高くなります
必要条件
- ワークスペースまたはアカウント管理者権限が必要です
- サーバレスコンピュートを有効にする必要があります
- カタログの所有者、または
USE_CATALOG
とMANAGE
権限が必要です
使用方法
- カタログの詳細タブに移動します
- データ分類トグルをクリックして有効化します
- スキャンするスキーマを選択します(デフォルトは全スキーマ)
- 「有効にする」をクリックします
分類結果の確認と管理
結果表示
- トグル横の「結果の表示」をクリックして分類結果を確認できます
- 高信頼度で検出された分類タグとテーブル、列、サンプル値が表示されます
自動タグ付け
- 分類タグごとに自動タグ付けを有効化できます
- 有効にすると、既存および今後の検出がすべてタグ化されます
- タグは24時間以内に有効になります
結果システムテーブル
-
system.data_classification.results
にすべての結果が保存されます - アカウント管理者のみデフォルトでアクセス可能です
- メタストア全体の分類結果とサンプル値が含まれます
サポートされる分類タグ
- クレジットカード番号
- メールアドレス
- IBAN(国際銀行口座番号)
- IPアドレス
- 場所情報
- 人名
- 電話番号
- 米国の銀行番号、運転免許証、ITIN、パスポート、社会保障番号
ウォークスルー
試してみます。カタログエクスプローラにアクセスします。カタログにアクセスして、詳細タブにアクセスすると、データの分類トグルがあります。
オンになりました。15分くらい待てとメッセージが出たので待ちます。
しばらくすると結果の表示ボタンが活性化するのでクリックします。以前はAI/BIダッシュボードが開いていましたが、専用のダッシュボードになっていました。
また、システムテーブルからも分類結果を確認できます。
SELECT
DISTINCT catalog_name, schema_name, table_name, column_name
FROM system.data_classification.results
WHERE class_tag = 'class.email_address'
catalog_name | schema_name | table_name | column_name |
---|---|---|---|
main | default | amazon | review |