こちらの機能です。
データカタログには膨大な量のデータが含まれる場合があり、多くの場合、既知および未知の機密データが含まれています。データ チームは、各テーブルにどのような機密データが存在するかを理解し、このデータへのアクセスを管理し、民主化することが重要です。
この問題に対処するために、Databricksのデータ分類はカタログ内のテーブルを自動的に分類してタグ付けします。これにより、機密データを検出したり、Unity Catalogにおけるロールベースのアクセス制御 (RBAC)や属性ベースのアクセス制御(ABAC) ポリシーを用いて、結果に対してガバナンス制御を適用することができます。
以下に分類されます。
"credit_card" // クレジットカード番号
"email_address" // メールアドレス
"iban_code" // International Bank Account Number (IBAN)
"ip_address" // IPアドレス (IPv4 or IPv6)
"location" // 地名
"name" // 氏名
"phone_number" // 電話番号
"us_bank_number" // US bank number
"us_driver_license" // US driver license
"us_itin" // US Individual Taxpayer Identification Number
"us_passport" // US Passport
"us_ssn" // US Social Security Number
注意
- 執筆時点ではベータ版です。
- この機能を使うと、分類対象のカタログ配下のテーブルに、タグが付与されます。インパクトをご理解の上で使用することを強くお勧めします
機能の有効化
ワークスペースのプレビューメニューで、Data Classificationをオンにします。
カタログに対するデータ分類の有効化
データ分類はカタログ単位で有効化/無効化できます。カタログエクスプローラでカタログにアクセスすると、詳細タブのAdvancedにData Classificationが表示されます。このトグルをオンにすることで、カタログに対してデータ分類が行われます。
有効化の際には、対象とするスキーマを選択することも可能です。
しばらく待つと、See resultsのボタンが活性化します。こちらをクリックすることでダッシュボードにアクセスできます。
注意
こちらにあるように、データ分類には最大24時間を要します。
分類結果ダッシュボード
ダッシュボードでは、分類結果を確認することができます。こちらは概要。
(1日分しか表示されていませんが)分類結果の時系列変化を確認できます。
分類結果やインパクト分析結果です。
分類によるタグの付与
そして、分類結果はテーブルのカラムにタグとして付与されます。
これによって、タグベースの検索が可能になるだけでなく、現在プレビュー中のタグベースのアクセス制御(Attribute-based Access Control: ABAC)でこれらのタグを活用できるようになります。