CDH 5.4 から導入された、Sensitive Data Redaction (機密データのマスキング) 機能を紹介します。
できること
Hadoopクラスタのログファイル、Hive/Impalaクエリに含まれる任意の機密データのマスキングが可能です。
必要なもの
CDH 5.4 / Cloudera Manager 5.4
手順
- Cloudera Managerにログインし、HDFSサービスを選択します。
2. HDFSの設定画面で、「redaction」で検索します。
3. デフォルトでは「クレジットカード情報」、「社会保障番号」、「ホスト名」、「メールアドレス」のマスキングテンプレートが用意されています。カスタムのマスキングを定義することも可能です。ここではクレジットカード情報をマスキングします。
4. 設定画面内で、マスキングがどのように動作するのか、テストすることができます。
ポリシーに従い、マスキングされることが確認できました。変更を保存したらHDFS/YARN/Hive/Hueを再起動しましょう。
5. テストに使用するテーブルには以下のようなレコードが入っています。
6. Hueからクエリを実行します。実行すると、気の利いた警告がバナーとして表示されます。
クレジットカード情報がマスキングされています。
8. ジョブの設定ファイルにもクエリが記録されています。見てみましょう。
通常であればWHERE句に表示されるはずのクレジットカード番号が、マスキングされています。
9. HiveServer2のログにもクエリが記録されますが、こちらもマスキングされています。
仕組み
ログのマスキングにはLog4JのAppenderであるlogredactorを使用しています。対象のロガーをラップすることで、定義されたルールに基づいたマスキングを行っています。
Hiveが各所に記録するクエリ情報のマスキングには、下記JIRAで追加されたフック(書き込み時のインタフェース)をしかけることで対処しています。
https://issues.apache.org/jira/browse/HIVE-9408
https://issues.apache.org/jira/browse/HIVE-9994
Impalaの場合はBackendのサーバでマスキングし、各WebUIやログファイルに転送しています。
https://github.com/cloudera/impala/commit/803a95cc1b0fe02ea172d171103f0f0a4cc34fb7#diff-cbda887fc762b129fac6f0e34c5da698
https://github.com/cloudera/impala/commit/1f04e665e622dfc95fd1ae5747437597c9b43164
最後に
Hadoopに企業内のあらゆるデータが格納されるようになり、昨今ではクラスタのセキュア化は非常に重要な要件のひとつとなっています。Hadoopでは認証、認可、監査、暗号化といった各セキュリティ要件を満たすよう改善が進められているわけですが、せっかくセキュア化したデータも、ログやクエリの実行履歴から見えてしまっては困るというケースもあるでしょう。
たとえば、ある金融機関に、クラスタの運用チームとデータ解析チームがあるとします。データ解析チームにはすべての顧客のクレジットカード情報を閲覧できる権限が付与されていますが、運用チームには付与されていません。データ解析チームは select * from table where creditcard = '1234-5678-9012-3456';
といった形で分析クエリを実行できますが、運用チームにはできません。しかし、運用チームにはログやWebUIの参照権限がありますので、WHERE句の中身が丸見えです。
本記事で紹介したマスキング機能を使えば、あらかじめ指定したフォーマットに合致する情報を、ログやクエリの履歴情報から削除することで上記のセキュリティリスクを回避できます。クラスタの実データやメタデータに手を加えるわけではなく、Kerberos認証などの前準備も不要なので、比較的気軽にとりかかれるのではないでしょうか。
ドキュメント
http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/sg_redaction.html
http://blog.cloudera.com/blog/2015/06/new-in-cdh-5-4-sensitive-data-redaction/