IBM Hadoop(BigInsights/IOP)のデータ暗号化
Hadoopからのセットアップ方法や利用手順、パフォーマンス結果などの詳細な結果がIBM BigInsights 4.1 - HDFS暗号化検証レポートとしてアップされている。
これを見ると、これまではHDFSデータの暗号化としてはLinuxのディスク暗号化(LUKS暗号化)を使っていたが、今後はHDFS暗号化が暗号化のメインになっていくのではないかと思う。HDFS暗号化はRangerによるKey管理もできるし。
レポートでは暗号化利用時に気になるパフォーマンスへの影響に関してもテストされている。以下はBigInsights 4.1 (Hadoop2.7.1)でのHdbenchによる性能テスト結果の抜粋。
暗号化なし/HDFS暗号化/LUKS暗号化で、データノード数4,8,12で1GBのファイル入出力の結果を表すパフォーマンスグラフが以下。
青いバーが各ノードごとの処理能力を示していて、同じデータノード数同士で比較することでパフォーマンスへの影響を読み取ることができる。
読み込み性能はメモリの影響を受けることによりどれもほぼ劣化がないという結果を示しているが、書き込み性能はHDFS暗号化が数%程度の劣化であるのに対して、Linuxディスク暗号化(LUKS)が30%程度の性能劣化を示している。
それ以外にHDFS暗号化の特徴はこんな感じ:
- ユーザー/プログラム側で変更の必要なし
- 対象ディレクトリの指定が可能(影響を最小限にする)
- 暗号化の設定と解除がいつでも可能
- keyを別システム管理にすることでセキュリティアップ
などなど。
レポートではインストール・設定やパフォーマンス結果の詳細も分かるので是非一読を。
==============
私の発言は私自身の見解であり、必ずしも所属する会社での立場、戦略、意見を代表するものではありません。