0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Databricksのデータ自動分類機能がパブリックプレビューになりました

Last updated at Posted at 2025-10-17

以前こちらでベータ版を試しました。

このデータ分類機能がパブリックプレビューになりました!

Databricksデータ分類が現在パブリックプレビューになっており、すべてのカタログタイプをサポートし、すべての分類結果を単一のシステムテーブルに統合し、分類をレビューして自動タグ付けするための新しいUIを提供しています。データ分類を参照してください。

データ分類機能とは?

Unity Catalogのデータ分類は、AIエージェントを使用してカタログ内の機密データを自動的に分類・タグ付けする機能です(パブリックプレビュー段階)。

主な機能

自動分類とタグ付け

  • AIエージェントがUnity Catalog内のテーブルを自動的に分類します
  • 機密データを検出し、適切なタグを付与します
  • Unity CatalogのABAC(属性ベースのアクセス制御)と連携してガバナンス制御を適用できます

インテリジェントスキャン

  • Unity Catalogとデータインテリジェンスエンジンを活用してスキャンタイミングを最適化します
  • 増分スキャンにより、新しいデータも自動的に分類されます
  • 通常、新しいテーブルと列は作成後24時間以内にスキャンされます

コスト最適化

  • デフォルトストレージを使用するので、ストレージ料金はかかりません
  • 最初のスキャンは増分スキャンで、後続のスキャンよりコストが高くなります

必要条件

  • ワークスペースまたはアカウント管理者権限が必要です
  • サーバレスコンピュートを有効にする必要があります
  • カタログの所有者、またはUSE_CATALOGMANAGE権限が必要です

使用方法

  1. カタログの詳細タブに移動します
  2. データ分類トグルをクリックして有効化します
  3. スキャンするスキーマを選択します(デフォルトは全スキーマ)
  4. 「有効にする」をクリックします

分類結果の確認と管理

結果表示

  • トグル横の「結果の表示」をクリックして分類結果を確認できます
  • 高信頼度で検出された分類タグとテーブル、列、サンプル値が表示されます

自動タグ付け

  • 分類タグごとに自動タグ付けを有効化できます
  • 有効にすると、既存および今後の検出がすべてタグ化されます
  • タグは24時間以内に有効になります

結果システムテーブル

  • system.data_classification.resultsにすべての結果が保存されます
  • アカウント管理者のみデフォルトでアクセス可能です
  • メタストア全体の分類結果とサンプル値が含まれます

サポートされる分類タグ

  • クレジットカード番号
  • メールアドレス
  • IBAN(国際銀行口座番号)
  • IPアドレス
  • 場所情報
  • 人名
  • 電話番号
  • 米国の銀行番号、運転免許証、ITIN、パスポート、社会保障番号

ウォークスルー

試してみます。カタログエクスプローラにアクセスします。カタログにアクセスして、詳細タブにアクセスすると、データの分類トグルがあります。
Screenshot 2025-10-17 at 20.57.58.png

オンにすると、分類対象にするスキーマの選択を求められます。
Screenshot 2025-10-17 at 20.58.12.png

オンになりました。15分くらい待てとメッセージが出たので待ちます。
Screenshot 2025-10-17 at 20.58.48.png

Screenshot 2025-10-17 at 20.59.09.png

しばらくすると結果の表示ボタンが活性化するのでクリックします。以前はAI/BIダッシュボードが開いていましたが、専用のダッシュボードになっていました。
Screenshot 2025-10-17 at 21.16.24.png

分類の詳細を確認できます。
Screenshot 2025-10-17 at 21.16.41.png

他の分類結果も確認できます。
Screenshot 2025-10-17 at 21.17.21.png

また、システムテーブルからも分類結果を確認できます。

SELECT
    DISTINCT catalog_name, schema_name, table_name, column_name
  FROM system.data_classification.results
  WHERE class_tag = 'class.email_address'
catalog_name schema_name table_name column_name
main default amazon review

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?