#はじめに
今回はDatabricksの医療業界での事例をご紹介させていただきます。
【掲載事例】
1.REGENERON
公式事例URL : https://databricks.com/customers/regeneron
2.SANFORD
公式事例URL : https://databricks.com/customers/sanford-health
3.OPTUM
公式事例URL : https://databricks.com/customers/optum
#REGENERON
###ユースケース
大容量のゲノムデータを分析し、新薬の開発を効率化しました。
###課題
REGENERONでは新薬開発のために、
40万人分以上の遺伝子データを記録したデータベースを構築しました。
しかし、それらのデータを戦略的に活用するには以下の課題がありました。
- ゲノムデータと臨床データが複雑に分散している
- 10TBのデータセットのETL処理だけで何日もかかる
- データ量が多いため、モデルの分析およびトレーニングは困難を極めた
###成果
- データセット全体に対してのクエリ実行時間が30分から3秒に短縮(600倍の高速化)
- 共同作業環境を構築できたことで、エンジニアチームとしての生産性が向上
- 分析環境の管理を自動化
- ETL処理全体が3週間から2日に短縮
#SANFORD
###ユースケース
大規模な患者データセットから
(10万人分以上の遺伝子データ、医療画像、健康記録など)
慢性疾患の原因となる遺伝子疾患を特定し、
患者ごとに最適化された治療を提供する基盤を構築しました。
###課題
分析環境を構築するにあたり、以下のような問題がございました。
- エンジニアリングやインフラ知識の不足
- 上記が原因で、分析基盤のセットアップや拡張が困難
- 機械学習を大規模に実行するために、数か月または数年も準備する必要があった
###成果
- データから知見を得るのに数日から数時間に短縮
- データエンジニアリングと運用を簡素化
- データをモデルに組み込むことが簡単になり、予防ケアと精密医療の提供を推進
#OPTUM
###ユースケース
病院の保険会社への医療保険請求から
過小支払いを検出をするのに利用しました。
###課題
- 1日あたり数百万件の請求から、8時間以内に病院に結果を返す必要があった
- データ規模の拡大につれて、パフォーマンスの課題が増大
- 計算パフォーマンスの拡張が困難
- 現状の計算に莫大なコストが発生
###成果
- 8000万件の処理をする時間が86分間から160分間に短縮
- 分析の高速化により、失われる可能性のあった数百万ドルの収益を節約
- オートスケーリングにより計算コストを最適化
- あらゆる形式のデータの取り込みが容易に
#おわりに
Databricksは大容量の臨床データなどを分析するのピッタリなサービスですので
非常に医療との親和性は高いです。
#参考リンク
https://databricks.com/jp/customers