Unity CatalogのSystem Tableがリリースされた事で、こちらの方法でも確認出来るようになりました。
はじめに
Databricks Unity Catalog を利用すると、カタログアクセスに関する監査ログを取得することができます。ただし利用するためには、ログの保存先(S3 Bucket)を作成し、配信を有効にしておく必要があります。今回はその設定と実際に配信された監査ログをどうやってチェックするか見ていきたいと思います。
今回はこちらのドキュメントを参考に作成しております。正確な情報としては、オリジナルのドキュメントをご覧ください。https://docs.databricks.com/data-governance/unity-catalog/audit.html
1. 監査ログの配信設定と有効化
まずは監査ログの配信設定を行います。こちらは通常のDatabricks監査ログ設定と同じですので、すでに設定済みであれば省略可能です。ただし、Unity CatalogのログはAccountレベルで行われるため、workspace_ids_filterにてフィルター設定しないでください。
設定手順についてはこちらのDatabricks監査ログ設定手順書をご覧ください。
アカウントでログ配信が有効になると、Databricksは定期的に監査ログを配信場所に送信します。
監査ログのフォーマット
ログはJSONフォーマットで保存され、次の例は createMetastoreAssignmentイベントの場合です。
{
"version":"2.0",
"auditLevel":"ACCOUNT_LEVEL",
"timestamp":1629775584891,
"orgId":"3049056262456431186970",
"shardName":"test-shard",
"accountId":"77636e6d-ac57-484f-9302-f7922285b9a5",
"sourceIPAddress":"10.2.91.100",
"userAgent":"curl/7.64.1",
"sessionId":"ephemeral-f836a03a-d360-4792-b081-baba525324312",
"userIdentity":{
"email":"crampton.rods@email.com",
"subjectName":null
},
"serviceName":"unityCatalog",
"actionName":"createMetastoreAssignment",
"requestId":"ServiceMain-da7fa5878f40002",
"requestParams":{
"workspace_id":"30490590956351435170",
"metastore_id":"abc123456-8398-4c25-91bb-b000b08739c7",
"default_catalog_name":"main"
},
"response":{
"statusCode":200,
"errorMessage":null,
"result":null
},
"MAX_LOG_MESSAGE_LENGTH":16384
}
2. 監査ログストレージの登録
監査ログは指定したS3バケットに保存されるため、ワークスペース上で監査ログの分析をするために、S3バケットを外部ロケーションとして登録します。
登録方法はこちらをご覧ください。Unity Catalog 外部ロケーションの登録 (AWS)
登録すると以下のようになり、アクセスすることが可能になります。
3. 監査ログデータの確認
こちらのサンプルノートブックを利用して、監査ログをUnity Catalogに登録します。
監査ログにはUnity Catalog以外にもさまざまなサービスで利用しているログが集まっております。
このノートブックでは、それぞれサービス毎にテーブルを作成し、その後の確認がしやすいように処理をしてくれます。
UnityCatalogの監査ログで取得できるイベントはこちらをご覧ください。
https://docs.databricks.com/data-governance/unity-catalog/audit.html#unity-catalog-audit-log-events
4. お勧めの管理
4.1: データ取得の自動化
ワークフロー機能を利用すると、先ほどのノートブックをスケジュール実行できます。一番簡単なのはノートブックの右上にあるスケジュールボタンをクリックしてスケジュール設定しておきましょう。これで自動的に監査ログデータをカタログに登録してくれます。
4.2: ダッシュボードによる可視化
Databricks SQLを利用すると、このようにフィルター条件などをリストで選択出来るようになります。
これらをダッシュボードとして保存したり、アラートを作成し異常なアクセスにはアラートを通知するなどしておくと運用が楽になります。
最後に
この監査ログは、Unity Catalog以外のDatabricksサービスの監査ログも取得しているため、同じように可視化することが可能です。有事に備えて調査出来るように準備しておいては如何でしょうか。
UnityCatalogセットアップについてはこちらもご覧ください。
https://qiita.com/maroon-db/items/57cee03cef202c839b94