病院のガバナンス、血糖値予測、鎮静状態評価の最先端研究~NAMのヘルスケアレポート

Posted at 2025-03-26

医療分野におけるAI（人工知能）の活用は急速に進展しています。今回は、医療AIに関する最新の研究から3つの興味深い論文を紹介します。これらの研究は、AIの医療応用における「ガバナンス体制の構築」「糖尿病患者の血糖値予測」「処置中の鎮静状態の評価」という異なる側面に焦点を当てています。

1. 学習する医療システムにおけるAIガバナンス：カナダの病院システムの事例研究

背景と目的

医療へのAI導入による潜在的なメリットは広く認識されていますが、実際の導入率は標準化されたガバナンスシステムの欠如により低いままです。この研究は、カナダの複数の病院からなるシステムにおいて、安全で効果的、そして公平なAI導入を確保するためのガバナンスフレームワークを、学習する医療システム（Learning Health System: LHS）の枠組みの中で確立することを目的としました。

研究方法

AIガバナンスシステムの確立には、組織全体の様々なステークホルダーの積極的な関与と一連の研究活動が必要でした：

インタビュー: 運用、技術、臨床の各領域から12名のステークホルダーに対して詳細なインタビューを実施
ジャーニーマッピング: AIガバナンスに関わるステークホルダーを特定するための2回のセッションを実施
初期勧告の策定: インタビューとジャーニーマッピングからの洞察を基に、プロセス、人材、技術、運営の4つの領域にわたる初期勧告を策定
勧告の洗練: デジタルヘルスガバナンスに不可欠な6名の上級幹部を採用し、調査とデザイン思考ワークショップを通じて初期勧告を洗練・最終化

結果

最終化された勧告は、効果的なAIガバナンスシステムの確立に必要なプロセス、人材、技術、運営について詳述し、これらの勧告を用いて作成されたガバナンス文書は、上級幹部により政策として承認されました：

プロセス領域: AIライフサイクル全体にわたる範囲、主要な決定ポイント、リスク評価プロトコル、執行の境界を明確に定義
人材領域: AIガバナンス委員会の構成と構造、必要な専門知識、メンバーの責任、委員会メンバーシップの更新プロトコルを解説
技術領域: AI統合をサポートするために必要な技術的能力とインフラの前提条件、および組織内でのそれらの管理に関するガイドラインを概説
運営領域: 組織内でのAIガバナンスシステムの運用化と、その成功した実装を評価するための提案指標を記述

結論

この研究は、医療におけるAIの責任ある統合を確保するための中央集権的で標準化されたAIガバナンスフレームワークの必要性を強調しています。勧告は特定の医療システムのコンテキストに合わせられましたが、AIガバナンスシステムの確立に使用された方法と最終的な勧告に含まれる包括的な洞察は、学習する医療システムのレンズを通じて広く適用できます。この研究は、様々な医療環境での適応と実装の可能性の基礎を築くものであり、医療におけるより堅牢で普遍的に適用可能なAIガバナンス実践の発展を促進します。

2. CGM-GPT：異なる時間地平での血糖値軌跡を予測するトランスフォーマーベースの血糖値予測モデル

背景と目的

糖尿病の自己管理を改善するためには、正確な血糖値予測と、それに基づく自動化されたコーチングが重要です。この研究では、「大規模言語モデル（LLM）」のようなアプローチで「大規模血糖モデル（LGM）」を構築し、30分、60分、2時間後の血糖値を予測することを目指しました。この「CGM-GPT」と名付けられたモデルの精度を、同じ時間地平について報告されている他のディープラーニングベースのモデルと比較しました。

研究方法

研究チームは、1型糖尿病（T1D）および2型糖尿病（T2D）を持つ617人から得られた実世界の持続的血糖モニタリング（CGM）データを評価しました：

1700万以上のCGMエントリー（約59,000患者日、161.7患者年に相当）
データセットは10%にダウンサンプリングされ、9:1の比率で保持内サンプルと保持外サンプルに分割
2つの異なるGPTモデルを構築：
1. GPT1: 訓練セットでT1D集団データのみを使用
2. GPT2: 訓練セットでT2D集団データのみを使用
それぞれのモデルを使用して、30分、60分、2時間の時間地平でT1DとT2D両方の集団の血糖値軌跡を予測
二乗平均平方根誤差（RMSE）（mg/dL）を計算してモデルの精度を評価

結果

GPT1モデル（T1Dのみ訓練）のT1Dのみの血糖値軌跡予測の保持外サンプルRMSE（mg/dL）：
- 30分：12.8
- 60分：23.5
- 2時間：40.1
GPT2モデル（T2Dのみ訓練）のT2Dのみの血糖値軌跡予測の保持外サンプルRMSE：
- 30分：10.4
- 60分：17.5
- 2時間：27.4

興味深いことに、T2D集団でトレーニングされたGPT2モデルをT1D集団の血糖値軌跡予測に使用した場合も、同様のRMSEスコアを示しました：

30分：13.0
60分：23.5
2時間：39.4

GPT1モデル（T1D集団の血糖値軌跡予測に使用）のRMSEスコアは、現在の文献で報告されている最先端のスコアよりもかなり低く、30分および60分のRMSEスコアの現在の文献平均はそれぞれ18および30 mg/dLでした。

結論

新しいトランスフォーマーベースの血糖値予測モデルは、T1DおよびT2D集団の30分、60分、2時間の時間地平での血糖値軌跡を高精度で予測できることが示されました。興味深いことに、T2DのみでトレーニングされたモデルもT1D集団の血糖値軌跡を正確に予測できました。GPT1モデルは、現在の文献と比較してかなり低いRMSEスコアを達成しました。また、この研究のモデルは、2時間の時間地平での血糖値軌跡を予測した最初のモデルであり、今後はMEDAL（投薬、教育、食事、活動、検査）データをトレーニングセットに組み込んで、モデルをさらに強化する予定です。

3. 処置中の鎮静状態分類のための自然言語処理

背景と目的

環境型臨床インテリジェンスシステムは、自然言語処理（NLP）を使用して、患者が痛みを報告した場合や、患者の動きが処置を妨げるために臨床医が言語的な指示を提供した場合を自動的に記録できる可能性があります。この研究の目的は、鎮静状態の分類におけるNLPパイプラインの精度を判断することでした。

研究方法

大規模な学術病院のインターベンショナルラジオロジースイートで選択的処置を受ける18歳以上で同意能力のある患者を対象に、前向き観察研究を実施しました：

処置中の音声記録を収集し、背景ノイズを除去した後、15億5千万パラメータのWhisperモデル（バージョンlarge-v3）を使用して文字起こし
文字起こしされた文を「痛み」「評価」「動き」「呼吸」「その他」のカテゴリーに分類
研究チームの2名のメンバーが、OpenAIのAPIを通じてアクセスしたGPT-3.5モデルを使用した少数ショットのコンテキスト内学習から生成された初期ラベルを受け入れるか再割り当てすることで、各文に独立してアノテーション
データの20%をテストセットに割り当て、残りのデータをトレーニングと検証に80:20で分割
spaCy NLPプラットフォームを使用して3つのNLPパイプラインを評価：
- 単純な単語袋（BOW）モデル
- 線形BOWモデルと「トークンからベクトル」（Tok2Vec）コンポーネントを組み合わせたアンサンブル
- 事前トレーニングされたRoBERTaモデルを使用したトランスフォーマーベースのアーキテクチャ

結果

適格性をスクリーニングされた119人の患者のうち、82人の参加者が分析に含まれました：

トレーニングに10,434文、検証に3,375文、テストに2,127文を使用
トレーニングとテストセット間で鎮静状態ラベルの分布は類似し、検証セットの文に動きラベルが多い

モデルのパフォーマンス：

BOWアプローチ: ROC曲線下面積（AUC-ROC）0.9、F1スコア0.7、精度0.83、再現率0.66
BOWとTok2Vecの組み合わせ: AUC-ROC 0.96、F1スコア0.79、精度0.83、再現率0.77
RoBERTaトランスフォーマー: AUC-ROC 0.97、F1スコア0.87、精度0.86、再現率0.89
GPT-3.5モデル: F1スコア0.65、精度0.57、再現率0.93

「痛み」ラベルについては、RoBERTaモデルがF1スコア0.81、精度0.85、再現率0.77を達成し、「動き」ラベルについては、F1スコア0.79、精度0.82、再現率0.78を達成しました。これらの結果は、これらのラベルに対して他のモデルより優れていました。

結論

NLPを使用した鎮静状態評価の自動化により、鎮静された患者が受けるケアのより迅速な記録が可能になります。分類から生成されるダウンストリームアプリケーションには、鎮静状態のリアルタイム視覚化などが含まれ、臨床医間の鎮静の適切さについてのコミュニケーションを改善する可能性があります。環境型臨床インテリジェンスシステムのパフォーマンスとリアルタイムデータに必要なコンピューティング要件を評価するためには、追加の研究が必要です。

まとめ

これら3つの研究は、医療分野におけるAI活用の多様な側面と可能性を示しています。AIガバナンスの構築から、糖尿病管理のための高精度な血糖値予測モデル、そして処置中の患者の状態を評価するためのNLPの応用まで、AIは医療の質と効率を向上させる重要なツールとなりつつあります。

特に注目すべきは、これらの研究がいずれも実際の臨床環境での応用を視野に入れている点です。単なる技術的な可能性の探求だけでなく、実際の医療現場での実装を念頭に置いた研究デザインとなっています。これは、研究段階から実用段階へとAI医療応用が進化していることを示す重要な兆候と言えるでしょう。

今後、

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up