More than 3 years have passed since last update.

DatabricksのHIPAA準拠デプロイメント

Posted at 2021-10-30

HIPAA-compliant deployment | Databricks on AWS [2021/6/11時点]の翻訳です。

Databricksは、お客様がPHI(保護対象保健情報：protected health information)データを処理する前に、Databricksとオーダーフォーム、および、Business Associate Agreement (BAA)に対して相互にサインした場合に、PHIデータを処理するためのHIPAA(Health Insurance Portability
and Accountability Act of 1996:医療保険の携行性
と責任に関する法律)準拠のデプロイメントをサポートすることができます。

AWSとBusiness Associate Agreement(BAA)にサイン

お客様のアカウントマネージャーにコンタクトするか、sales@databricks.comにメールを送り、HIPAA規制に準拠する様にDatabricks、AWSの両方とBusiness Associate Agreement(BAA)にサインします。このアグリーメントはHIPAA準拠の下、Databricksでお客様がPHIを処理することを許可するために必要となります。

HIPAA準拠クラスターの作成および検証

これらのステップでは、PHIデータを処理するHIPAA準拠クラスターの作成方法を説明します。

ステップ1: クラスターの作成

クラスター作成の手順に従います。設定のステップにおいて、Databricksランタイムを選択する必要があります。

警告!
Databricks機械学習ランタイムには、MPI (Message Passing Interface)や、低レベルコミュニケーションプロトコルを使用する、高パフォーマンス分散処理機械学習パッケージが含まれています。これらのプロトコルは、ネイティブで通信時の暗号化をサポートしていないので、これらのMLパッケージには、センシティブなデータを暗号化されない状態でネットワークに送信する潜在的リスクが存在します。お使いのワークフローにおいて、これらのパッケージに依存しないのであれば、これらのパッケージによって通信時のデータ暗号化が変更されることはありません。

どのようなリスクが？
MLパッケージによってネットワークに送信されるメッセージは、多くの場合、MLモデルのパラメーターかトレーニングデータに関するサマリー統計情報ですので、多くの場合、PHIのようなセンシティブなデータが暗号化されない状態で送信される訳ではありません。しかし、特定の設定や、これらのパッケージの利用(例えば、特定のモデルの設計)によって、これらの特別な情報がネットワーク上のメッセージとして送信される可能性があります。

どのパッケージが関係するのか？

XGBoost

Horovod、HorovodEstimator、HorovodRunner
分散TensorFlow

ステップ2: EBSボリュームを用いたクラスター設定

デフォルトのローカルストレージは暗号化されないため、暗号化されたDatabricks EBSボリュームを選択して、EBSボリュームを配備します。

ステップ3: 暗号化が有効化されていることを確認

ワークスペースでノートブックを作成し、上のステップで作成したクラスターにアタッチします。
ノートブックで以下のコマンドを実行します。

Scala

%scala spark.conf.get("spark.ssl.enabled")

trueが戻って来れば、暗号化が有効化された状態でクラスターを作成できたことになります。そうでない場合には、help@databricks.comにご連絡ください。

重要!
spark-submitは、HIPAA準拠クラスターではサポートされていません。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up