Monitoring patient medical device data with ML + Delta Lake, Keras, and MLflowの翻訳です。
2019/8/20に我々は、ヘルスケア、ライフサイエンスのテクニカルディレクターのFrank Austin Nothaft, PhDとシニアインダストリーソリューションマーケティングマネージャのMichael OrtegaによるウェビナーAutomated Monitoring of Medical Device Data with Data Scienceを開催しました。
医療機器データに機械学習を適用することで、医療機関は患者モニタリングを自動化し、予兆保全によって修理コストを削減し、医療機関外における患者の健康状態に対する新たな洞察を収集できるようになります。しかし、大規模データセットに対するMLパイプラインの構築を試みる医療機関の多くは、レガシーなインフラのスケール、信頼できるストリーミングパイプラインの構築、効率的モデル開発といった様々な課題に直面しています。このウェビナーでは、Databricksと人気のあるオープンソーステクノロジーを用いて、どのようにこれらの課題を解決すべきかを、医療機器のストリーミングデータに対するディープラーニングモデルのライブデモを含めてシェアしました。
以下のことを学ぶにはウェビナーのリプレイを参照ください:
- 構造化ストリーミングとDelta Lakeを用いたEKG(心電図)データに対するストリーミングパイプライン構築
- データエンジニアリングのボトルネックを解消し、データの一貫性を改善
- リアルタイムのEKGストリーミングデータに対するインタラクティブなクエリーの実行
- テラバイト規模の波形に対するディープラーニングモデルの迅速なトレーニング
- 分析のトレーサビリティのためのMLflowによるモデルライフサイクル全体のトラッキング、管理
これらのコンセプトを以下のノートブックとチュートリアルで説明しました:
ウェビナーの最後では、以下のQ&Aを行いました:
質問:このユースケースでWFDBはどのように役立ったのですか?WFDBデータはDatabricks内、あるいは別のサーバーに格納されるのですか?
WFDBは生物医学波形データをやり取りする際の標準的なファイルフォーマットです。この例では、心電図データが到着する際の総合交換可能なファイルフォーマットとなっており、データはDatabricks File System (DBFS)に格納されています。DBFSはお客様のAzure DatabricksにおけるAzure Blob StorageあるいはAWSのDatabricksにおけるS3に格納されたデータに対するメタデータを管理するシンレイヤーです。ここでデモしたワークフローでは、WFDBからDeltaテーブルに変換するところからスタートしました。
質問:どのようにウィンドウサイズを決めるのですか?サイズはパフォーマンスに影響しますか?
データセットを分析した最近のブログを参考にして、ウィンドウサイズ2,048を選択しました。直感的に、このデータセットにおけるサンプリングレートでは2,048サンプルは概ね2つの鼓動となります。
質問:データ投入の前に何かしらの信号処理は行われましたか?
この例では、オープンアクセスのPTB Diagnostic ECG databaseからデータを取得しました。データを取得する際に限定的な信行処理は行われました。データをダウンロードした後は追加の信号処理は行っていません。
質問:Databricksではauto-kerasをサポートしていますか?
auto-kerasはKerasディープラーニングライブラリを用いて、ニューラルネットワークモデルアーキテクチャの最適化を自動化するためのpythonライブラリであり、DatabricksのMLランタイム(AWS|Azure)にプレインストールされています。auto-kerasはDatabricksのライブラリ管理機能(AWS|Azure)を用いてもインストールでき、Databricksクラスターで利用できます。auto-keras以外にも幅広いAutoMLの機能をカバーしており、最近のブログ記事でも触れられています。
質問:どのようにクラスターをモニターするのですか?それぞれのジョブに関するメトリクスをどこで確認できますか?
Sparkのジョブが実行されている際、ノートブックのインラインあるいは、DatabricksのクラスターUIにSpark UIが表示されます(AWS|Azure)。さらに、Ganglia(AWS|Azure)に出力される様々なメトリクスをカバーしています。
次のステップ
- 詳細を理解するためにウェビナーのリプレイを見ます。
- ウェビナーで使用した以下のノートブックを用いて、医療機器に対するディープラーニングパイプラインの探索をスタートします。
- Databricksの無料トライアルをスタートしてみます。