概要
プライバシー保護合成データの活用事例調査の一環として、イギリス Simulacrum のデータを用いた論文を探索し、その内容を調査した。
関連記事:https://qiita.com/gg_hatano/items/386135c7c2f67a12a55d
はじめに
個人情報・医療情報などの機微なデータの活用に際しては、
- データ活用のアイディアを考えてもらうために、広くデータを提供して使ってもらいたい
- 情報漏洩は懸念されるので、限られた人・環境でのみ利用してもらいたい
というジレンマが発生します。
ここで、元データの特徴を保存した新しいデータ:合成データを用いることで、
- 元データを再現したデータを広く提供して、分析・活用アイディアを検討してもらう
- 合成データが漏洩しても、元の個人とは全く異なるので、情報漏洩の懸念はない
という形で、解決できる場合があります。
事例:イギリス Simulacrum
イギリスの Simulacrum というサービスでは、研究用に整備したがんの実データ構造を模倣した合成データを広く公開しています。
研究者が分析・研究アイディアやコードを提出し、審査を通過すると、実データでそのコードを実行し、集計結果を受け取ることができます。
データの概要等を紹介した記事がありますので、ご興味があればこちらをご覧ください。
今回は、Simulacrumを活用して実施されたデータ活用事例をリストアップし、それぞれの活用方法を調査しました。
Simulacrumを用いて実施された研究・論文リスト(2025/05/16版)
DeepResearchで論文を選定・整理し、分類と要旨を調整しました。
論文タイトル | ジャーナル・会議名 | 要旨 | 合成データの利用方法分類 | 論文リンク |
---|---|---|---|---|
Process Mining and Synthetic Health Data: Reflections and Lessons Learnt | International Conference on Process Mining (ICPM 2022), LNBIP Vol. 468 (2023) | Simulacrum(合成がんデータ)の診療プロセスが、現実のがん患者データとどれだけ一致するかをプロセスマイニングで評価。診断から手術までの日数や治療ステップの順序に週周期など現実的な傾向が確認され、忠実度が高いことが示された。 | 2.合成データの品質の検証 | Link |
Clinical trial participation for vulnerable cancer patients in Denmark and England | Cancer Epidemiology, Vol.96, June 2025 | イングランドとデンマークのがん患者を対象に、社会的に脆弱な患者(低所得層など)の臨床試験参加率を比較。Simulacrumを使って実データ解析コードを検証した上で、両国ともに脆弱群の試験参加率が有意に低いことが明らかになった。 | 1.合成データで実験 → 実データで検証 | Link |
Real-World Experience With CPX-351 Treatment for Acute Myeloid Leukemia in England | Clinical Lymphoma, Myeloma & Leukemia, Vol.23 No.10, 2023 | 高リスク急性骨髄性白血病患者に対するCPX-351の実地使用経験を年齢群別に評価。Simulacrum上で開発した解析コードを実データに適用し、60歳未満・60歳以上ともに予後良好な結果が得られた。 | 1.合成データで実験 → 実データで検証 | Link |
Interactive data comics for communicating medical data to the general public | Computers & Graphics, Vol.124, 2024 | Simulacrumで得たがん統計(年齢別リスクや予防可能性など)を用いて、物語・キャラクター・グラフを統合したインタラクティブな“データコミック”を作成。テキスト形式よりも理解度・記憶定着・興味喚起の面で優れていることが実験で示された。 | 3.合成データから得られる分析結果を利用 | Link |
Modification of systemic anti-cancer therapies and weight loss | Therapeutic Advances in Medical Oncology, Vol.12, 2020 | 全身抗がん療法(SACT)中に生じる体重減少と治療中断・用量変更の関係を、がん種別に全国規模で分析。Simulacrumを用いて解析コードを構築し、実データでの結果として体重減少がある患者で治療変更のリスクが有意に高いことが示された。 | 1.合成データで実験 → 実データで検証 | Link |
感想
合成データの利用方法分類ごとに記載します。
1.合成データで実験 → 実データで検証(3件)
- 想定された使い方であり、これと類似した取り組みを日本でも実施したい。
- 作成した解析コードが実データでもそのまま使えたか?何か苦労があったか?個別論文をさらに調査する必要あり
2.合成データの品質の検証(1件)
- どういう使い方ができるかを検証しており、有用性を確かめている。
- ただし、品質評価なら実データを使えばいいのでは?という印象も受けた。
3.合成データから得られる分析結果を利用(1件)
- どんな分析結果(統計情報)が保存されているかの確認が必要。
- この事例も、合成データでアイディア検証を行い、実データで本番化する方が良いのでは?とも感じた。
今後の取り組み
それぞれの論文の詳細調査を進める予定です。
以上です