Improving Patient Insights With Textual ETL in the Lakehouse Paradigm - The Databricks Blogの翻訳です。
この記事はDatabricksとForest Rim Technologyの共著です。Forest Rimの創始者かつCEOのBill Inmon、Chief Data OfficerのMary Levinsに感謝の意を表します。
現在生成されているヘルスケアデータの量は、デジタル患者ケアの成長に伴い、前例がないほど急速に増加しています。しかし、生成されたデータの多くが、活用されないままとなっています。医療データの80%がテキスト、画像のような非構造化データであることも真実です。
医療システムにおいて、構造化されていない医療記録(provider notes)は、患者情報の重要な宝庫と言えます。例えば、医療記録には構造化データとして記録されていない患者の状況、病気の悪化のサインとなり得る患者の症状、患者の社会的行動の履歴が含まれている場合があります。
患者が治療を受けるときは常に、交流の詳細が医療記録に記録されます。生のテキストの量と、言語の特性は医者や他の多くの要因に依存します。このことは、何がテキストとして記録され、どのように表現されるのかに関して、多くの多様性を引き起こします。これら生のテキスト記録のコレクションは、患者の医療記録の基礎となり、患者個人、そして、患者全体に対してすばらしい価値を提供します。数百万人の患者の記録に対して総合的な検証が行われることで、研究者は病気や医療状況の進展や原因に関するパターンを識別できます。この情報は、患者により良い結果をもたらすためには非常に重要なものとなります。
医療記録のような生の非構造化テキストには、患者のケアや医療研究のための非常に重要な情報も含まれています。しかし、通常テキストデータは、その複雑性と手動で確認するのに時間がかかるため、通常は記録されたまま手付かずの状態になっています。テキストの医療記録から情報を抽出し、従来の構造化データと組み合わせることで、可能な限り完全な患者に対するビューを提供します。これは、治療を行う際の医療知識の進展、経過的な状況管理のサポート、深刻な患者に対する介入など全ての点で重要となります。
ヘルスケアテキストデータ分析の課題
医療システムにおいてこれらのデータセットを活用する際の課題は、従来型のデータウェアハウスです。データウェアハウスは多くの場合、リレーショナルデータベースを活用しますが、準構造化データ、非構造化データをサポートしていません。標準的なテクノロジーは、構造化データ、数値データ、トランザクションを扱うことに長けています。しかし、テキストを取り扱うとなった場合には、敵視との収集、分析に失敗します。テキストの構造の欠如は、データウェアハウスの多くの利点を損なう結果となっています。
レガシーなデータアーキテクチャが、患者データに対する包括的分析に向いていない二つ目の理由は、多くのデータが異なるデータソースにおけるプロプライエタリなテクノロジーの上に存在しているためです。これらのテクノロジーは、そもそも他のテクノロジーとシームレスに連携することを想定していませんし、大規模テキストデータの分析ができないケースも多くあります。
さらに、これらのレガシーシステムは、ビッグデータ、先進的分析処理や機械学習を想定したものではありません。SQLベースの分析目的で構築されたこれらのシステムは、過去のイベントを報告する目的には適していますが、革新的な新たなユースケースをもたらすためには重要な未来に対する予測という点でできることはほとんどありません。
Forest Rim TechnologyとDatabricksのレイクハウスプラットフォームで患者に対する洞察を解き明かす
Textual ETLの開発元であるForest Rim TechnologyとDatabricksは、レガシーデータウェアハウスとプロプライエタリデータテクノロジーによる課題に医療機関が打ち勝つために支援します。前進するための道のりは、データウェアハウスの優れた要素とデータレイクの低コスト、柔軟性、クラウドのスケーラビリティを組み合わせたモダンデータプラットフォームであるDatabricksのレイクハウスからスタートします。この新たな、簡素化されたアーキテクチャによって、医療システムは保有している構造化データ(電子医療記録における診断、手順コード)、準構造化データ(整理さえれたテキスト記録)、非構造化データ(画像、テキストデータ)を、従来の分析とデータサイエンス両方に対応できる単一の高性能プラットフォームにまとめることができます。
Databricksレイクハウスプラットフォームのコアとなるのは、データレイクに信頼性とパフォーマンスをもたらすオープンソースストレージレイヤーであるDelta Lakeです。医療機関は生の医療記録などのデータをDelta Lakeのブロンズ投入レイヤー(以下に図示)に投入します。これにより、あらゆるデータ変換に対する唯一の信頼できる情報源を確保します。一方、従来のデータウェアハウスにおいては、データをロードする前にデータ変換が行われるため、構造化されていないテキストから抽出される構造化変数は、元のテキストと分断されます。また、レイクハウスアーキテクチャは、分析を行う際に組織が別のシステムにデータを複製する必要がないように、分析に対するフルスイートとAIの機能を提供します。
Forest Rim TechnologyはDatabricksの上に、医療記録で見られるような生のナラティブなテキストを読み込み、テキストをDelta Lakeに容易に投入できる構造化データに整形する先進技術であるTextual ETLを構築しました。Textual ETLは、あらゆる電子媒体から得られる構造化されていない医療記録を構造化フォーマットに変換することができます。Textual ETLの他の機能には、曖昧性の解決、多言語への翻訳が含まれます。現時点では、Textual ETLは英語、スペイン語、ポルトガル語、ドイツ語、フランス語、イタリア語、オランダ語をサポートしています。構造化されていないテキストは、あらゆるセンシティブなデータが保護され、管理されることでセキュアに構造化データに変換されます。DatabricksのレイクハウスプラットフォームとTextual ETLを組み合わせることで、患者個人、患者グループ、病院全体、国全体のデータを分析できるようになります。
テキストETLとDatabricksレイクハウスで大規模医療記録を分析
レイクハウスアーキテクチャにおけるTextual ETLのパワーをデモするために、Forest RimとDatabiricksは、患者人口シミュレーターであるSyntheaを用いて、大規模なテキスト医療レコードを生成しました。テキスト医療記録はサイズに幅があり、患者あたり10ページから40ページとなっています。
Textual ETLは医療用語における曖昧性を排除するために、洗練されたオントロジーを用います(例えば、心臓の専門医における略語"HA"は"Heart attack"ですが、他の専門医においては"headache"あるいは"Hepatitis A(A型肝炎)")。この例において、Forest Rim Technologyはデモグラフィック情報(年齢、性別、住所、人種)から医療内容(症状、状況、治療)まで幅広いテキストから変数を特定して抽出するためにTextual ETLをデプロイしました。抽出された変数は、データを探索する最初のステップとして、可視化ツールにインプットされます。Databricksのレイクハウスでは、迅速なデータ探索、データ間の関係を可視化するために、BIツールから直接Delta Lakeに直接アクセスすることができます。
この例では、アラバマ州における医療記録(合成データ)に着目し、Textual ETLを用いてテキスト記録を処理した後、構造化された結果をMicrosoft PowerBIに出力することで、容易に全てのテキストデータを探索できました。これによって、データを探索し、医者と患者の間で頻繁に議論されているトピックや免疫のような特定の分布を理解できました。
Textual ETLとDatabricksのレイクハウスは詳細なドリルダウンをサポートしているので、性別、年齢、住所、既婚・未婚のようなパラメータを切り替えながら、医療と病気のように異なるドメイン間の相関関係を探索できます。
ドリルダウンの動画は原文を参照ください。
Textual ETLでテキスト医療記録が処理された後は、研究者や分析者、データサイエンティストが、機械学習ユースケースや他の先進的分析ツールを通じたレポーティングなど全てをサポートします。レイクハウスのもう一つの利点は、原文の記録がDelta Lakeに存在するので、必要に応じて完全な患者の記録を容易に確認できるというものです(データウェアハウスの場合は、完全な記録は別のシステムに保管されるケースが多いです)。さらに、記録データを構造化レコードにリンクさせることができるので、医療従事者が作業に費やす時間を削減し、全体的な患者ケアを改善します。
DatabricksとForest Rim Technologyは、分析研究を行えるように、センシティブかつ構造化されていないヘルスケアのデータを、レイクハウス上でセキュアに処理する信頼できる環境を提供するためのビジョンを共有しています。ヘルスケアデータは成長し続けているので、このビジョンを通じて、センシティブな特性を持つ医療情報を守りつつも、Textual ETLを通じてより深い洞察を得られるようにするための信頼できる環境を提供します。
Forest Rim Technologyに関して: Forest Rim TechnologyはBill Inmonによって創立され、深い洞察と意味のある意思決定を行うために、構造化されていないテキストデータを構造化データベースに変換する分野における世界的なリーダーとなっています。Forest Rimの医療データミッションは、政府、医療機関がテキスト情報を分析研究や患者ケアを低コストで行えるようにするというものです。