HIPAA-compliant deployment | Databricks on AWS [2021/6/11時点]の翻訳です。
Databricksは、お客様がPHI(保護対象保健情報:protected health information)データを処理する前に、Databricksとオーダーフォーム、および、Business Associate Agreement (BAA)に対して相互にサインした場合に、PHIデータを処理するためのHIPAA(Health Insurance Portability
and Accountability Act of 1996:医療保険の携行性
と責任に関する法律)準拠のデプロイメントをサポートすることができます。
AWSとBusiness Associate Agreement(BAA)にサイン
お客様のアカウントマネージャーにコンタクトするか、sales@databricks.comにメールを送り、HIPAA規制に準拠する様にDatabricks、AWSの両方とBusiness Associate Agreement(BAA)にサインします。このアグリーメントはHIPAA準拠の下、Databricksでお客様がPHIを処理することを許可するために必要となります。
HIPAA準拠クラスターの作成および検証
これらのステップでは、PHIデータを処理するHIPAA準拠クラスターの作成方法を説明します。
ステップ1: クラスターの作成
クラスター作成の手順に従います。設定のステップにおいて、Databricksランタイムを選択する必要があります。
警告!
Databricks機械学習ランタイムには、MPI (Message Passing Interface)や、低レベルコミュニケーションプロトコルを使用する、高パフォーマンス分散処理機械学習パッケージが含まれています。これらのプロトコルは、ネイティブで通信時の暗号化をサポートしていないので、これらのMLパッケージには、センシティブなデータを暗号化されない状態でネットワークに送信する潜在的リスクが存在します。お使いのワークフローにおいて、これらのパッケージに依存しないのであれば、これらのパッケージによって通信時のデータ暗号化が変更されることはありません。
どのようなリスクが?
MLパッケージによってネットワークに送信されるメッセージは、多くの場合、MLモデルのパラメーターかトレーニングデータに関するサマリー統計情報ですので、多くの場合、PHIのようなセンシティブなデータが暗号化されない状態で送信される訳ではありません。しかし、特定の設定や、これらのパッケージの利用(例えば、特定のモデルの設計)によって、これらの特別な情報がネットワーク上のメッセージとして送信される可能性があります。
どのパッケージが関係するのか?
ステップ2: EBSボリュームを用いたクラスター設定
デフォルトのローカルストレージは暗号化されないため、暗号化されたDatabricks EBSボリュームを選択して、EBSボリュームを配備します。
ステップ3: 暗号化が有効化されていることを確認
- ワークスペースでノートブックを作成し、上のステップで作成したクラスターにアタッチします。
- ノートブックで以下のコマンドを実行します。
%scala spark.conf.get("spark.ssl.enabled")
trueが戻って来れば、暗号化が有効化された状態でクラスターを作成できたことになります。そうでない場合には、help@databricks.comにご連絡ください。
重要!
spark-submit
は、HIPAA準拠クラスターではサポートされていません。