Improving Drug Safety With Adverse Event Detection Using NLP -の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
World Health Organizationはpharmacovigilance(安全性情報管理)を、「有害な効果や、いかなる薬品・ワクチン関連の問題をの検知、評価、理解、対策に関する化学および活動」と定義しています。言い換えると、薬品の安全性です。
Pharmacovigilance(安全性情報管理): リアルワールドにおける薬品安全性モニタリング
全ての薬品やワクチンに対して、臨床試験において安全性と効果に関して厳密なテストが行われていますが、これらの製品がより多数かつ多様な患者グループ、他の疾病を持っている患者グループで使用された場合にのみ、特定の副作用が生じる場合があります。
継続的な薬品安全のサポートのために、バイオ医薬品製造者はアメリカ食品医薬品局(FDA)やEUのEMAのような規制機関に薬害イベント(ADE)を報告しなくてはなりません。薬害反応やイベントは薬品やセラピーによる治療に起きる医療問題です。注意点としては、必ずしもADEと治療に因果関係が存在する訳ではありません。しかし、全体として、薬害イベントのプロアクティブなレポートは、薬品安全性の確保に用いられるシグナル検知システムのキーパーツになります。
薬害検知には適切なデータ基盤が必要です
患者の安全のモニタリングは、より多くのデータを収集するにつれてさらに複雑になっています。実際、ADEの5%以下が公式なチャネル経由でレポートされており、大部分は患者サポートセンターへのメール、電話や、ソーシャルメディアへの投稿、医師と医薬品セールス間のセールスに関する会話、オンラインの患者フォーラムなどのフリーテキストのチャネル経由で報告されています。
確固とした薬品安全のモニタリングのためには、製造者、医薬品企業、薬品安全グループは、さまざまな専門用語、フォーマット、チャネル、言語から構成されるさまざまな非構造化の医療テキストを分析する必要があります。これを効率的に行うために組織は、科学的に厳密且つニアリアルタイムな洞察を提供するモダンかつスケーラブルなデータ&AIプラットフォームを必要とします。
前進するための道のりは、データウェアハウスのベストな部分とクラウドデータレイクの低コスト、柔軟性、スケールを組み合わせたモダンデータプラットフォームであるDatabricksのレイクハウスからスタートします。この最新かつシンプルなアーキテクチャによって、ヘルスケアプロバイダーとライフサイエンス企業は構造化(EMR上の診断、手続きコード)、準構造化(医療ノート)、非構造化データ(画像)含む全てのデータを、従来型の分析とデータサイエンスのための単一かつ高性能なプラットフォームに統合することが可能となります。
これらの能力を組み立てるために、Databricksはヘルスケアテキストに最適化された確固たる自然言語処理(NLP)ツールセットを提供するために、ヘルスケア向けNLPのリーダーであるJohn Snow Labsとパートナーシップを結びました。薬害イベント検知に用いられるデータの大部分がテキストベースであるため、これは非常に重要なことです。John Snowとのパートナーシップの詳細については、以前の記事のヘルスケアにおける大規模テキストデータへの自然言語処理の適用をご覧ください。
薬害イベント検知のためのソリューションアクセラレータ
企業が薬品安全をモニタリングできるように、DatabricksとJohn Snow Labsは、NLPを用いたソリューションアクセラレータノートブックを開発しました。以前のブログ記事でデモしたように、Databricksのレイクハウスプラットフォームを活用することで、非構造化のテキストから特に高度化された構造を抽出するために事前学習済みNLPモデルを活用することができ、異なるペルソナ向けにパワフルな分析とダッシュボードを構築します。このソリューションアクセラレータでは、どのように会話のテキストを処理し、薬害イベントと薬品情報を抽出し、どのように事前学習済みモデルを使用するのか、様々な後段のユースケースを支援する安全性情報管理のためのレイクハウスをどのように構築するのかを説明します。
このソリューションアクセラレータは以下の4つの基本的なステップに従います。
- 大規模な非構造化医療テキストの取り込み
- ニアリアルタイムで薬害イベント(腎臓のダメージなど)、薬品名、タイミングのような有用な情報を抽出するために事前学習済みNLPモデルを活用
- 関係性を確立するために薬害イベントと薬品エンティティを関連付け
- 重要度を決定するためにイベントの頻度を計測
以下では、ノートブックに含まれているワークフローの簡単なサマリーを示します。
薬害検知ワークフローの概要
生のテキストデータからスタートし、既知のADEステータスを伴う20,000のテキストコーパスを使用します。そして、事前学習済みのbiobertモデルを適用してADEステータスを抽出し、正解データと割り当ての精度の信頼レベルに基づいて、モデルの特別性と感受性を評価します。さらに、ner_ade_clinical
とner_posology
モデルを組み合わせて用いることで、会話のテキストからADEのステータスと薬品エンティティを抽出します。
シンプルにステージをパイプラインに追加することで、ADEのステータス(現在、不在、過去に発生、など)を検知することができます。
ADEのステータスと医療エンティティの関係を推定するために、医療エンティティ(このケースでは薬品)と推定されたADE間の家計性を検知する事前学習済みモデル(re_ade_clinical
)を使用します。
sparknlp_display
ライブラリを用いることで、以下に示すように生のテキストとそれらの言語的関係性、依存関係を表示することができます。
ADEと薬品エンティティデータが処理され、関連づけられた後は、ADEの頻度と薬品エンティティのペアをリアルタイムでモニタリングするためのパワフルなダッシュボードを構築することができます。
DatabricksでNLPを活用して薬害イベント分析を始めてみる
このソリューションアクセラレータを用いることで、DatabricksとJohn Snow Labsは大量のテキストデータの分析を容易にし、リアルタイムでの薬品シグナルの検知と安全モニタリングを支援します。このソリューションアクセラレータを使用するためには、ノートブックをオンラインでプレビューし、お使いのDatabricksアカウントに直接インポートすることができます。ノートブックには必要なJohn Snow LabsのNLPライブラリのインストール手順とライセンスキーが含まれています。
これ以外のヘルスケア、ライフサイエンスのソリューションについては、我々のインダストリーページを訪問してみてください。