はじめに
PrivacyTechNightに参加し、金融、ヘルスケア、研究分野における合成データの最新動向と実用事例を学びました。この記事では、イベントにて話されていた、合成データの基本から業界別活用事例、今後の課題と期待についてまとめます。
セミナー概要
出典:https://privacytechnight.connpass.com/event/312694/
開催日時
2024年4月16日(火)19:00-21:30
開催形態
オフライン
開催場所
LINEヤフー株式会社 22F オーディトリアム(東京都新宿区四谷一丁目6番1号 四谷タワー 受付:2Fオフィスエントランスホール)
合成データとは何か?
実際のデータセットの統計的特徴を模倣して生成されたデータです。元のデータと直接的な関係がないため、プライバシーを保ちながらデータ利用が可能です。類似するものとして、匿名加工情報があります。匿名加工の過程でデータ型(例:年齢19歳(int)->10代(string))や値域の変化が発生することがあります。合成データの場合は、実データと同様の処理が可能です。
発表1) ヘルスケア業界における合成データの事例
国外の事例が紹介されていました
- ワシントン大学: Covid-19診療データを合成データ化し、社外の分析者と連携して感染症対策を効率化。生データと同等の分析結果を得た。
- MediData社: 過去の治験データから対照群データを合成し、製薬のプロセスを効率化。
- NHS Digital: 検証・公開用に合成データを作成し、研究者に広く配布。作成された研究企画とプログラムは、審査に合格すれば、実データを用いた分析に進行。
感想
国外のヘルスケア分野では、医療データの社外提供や検証用データの配布、MediData対照群データの合成など、多岐にわたる用途で合成データが利用されています。合成データの安全な利用と効率化が特に進められている業界だと感じました。
発表2) 金融業界における合成データの活用事例
金融領域での合成データの活用事例として、以下が挙げられていました
- ドイツの保険会社Provinzial社: 部門間での機微なデータの合成データ化による連携を実現。連携時間を3か月短縮し、生データと比較して97%の精度を維持。
- FDUAデータ分析コンペ: 合成データを使用し、データ分析コンペを実施。従前は列名や値が匿名化されたマスキングデータでコンペを実施しており、金融のドメイン知識が活用できなかった。今回は列名と値が保持された合成データを用いており、金融のドメイン知識が利用できるようになった。
感想
金融業界では、特に内部データ連携としての応用が考えられていると感じました。また、ドメイン知識を使用することができる点は匿名加工データと比べて大きな利点だと考えます
発表3) LINEヤフーの差分プライバシー×合成データの研究事例
差分プライバシーや合成データに関する研究開発成果が紹介されていました
- LINEスタンプのサジェスト機能: LINEスタンプの推薦に際して、連合学習と差分プライバシー技術を利用した機械学習モデルを用いて、安全性を担保した。
- 差分プライバシー×合成データ: GANによる合成データ生成の過程で得られる統計情報の安全性を差分プライバシーにより担保した。
- 著作権保護のための敵対的透かし: 画像生成AIでデータが加工された場合に、事前に挿入された透かしが浮き上がり、著作権の主張及び意図しない二次創作を抑止。
感想
合成データは元のデータと紐付かないため安全と考えていました。ですが、その生成プロセスにおける統計情報の安全性を考える新しい視点が示されました。
発表4) 合成データの学会活動動向
- データ合成技術評価委員会の設立: ”データ合成技術の安全性・リスク評価、基準検討”と”適切なデータ合成技術の啓発・社会実装”の2つの活動を行う。
- 合成データの安全性・リスク評価: リスクアセスメントツール「TAPAS」による合成データの安全性検証は有効であることが示された。一方で差分プライバシの安全性パラメータεを実験的に推定する機能の精度に課題あり。
感想
合成データの活用を進める中で、本当に合成データは安全なのか考えさせられる内容でした。社外データ連携のために、合成データが本当に社外に出しても良い安全なデータになっているか検証するための仕組みは作っていく必要があると感じました。
パネルディスカッションのハイライト
-
合成データへの期待:
- 社外連携のためには、合成データが本当に安全か検討が必要であるため、まずは社内での利活用に期待したい。
- また、活用イメージを明確にするためのサンプルとして期待している。カタログ+合成データをみることにより購入前に実利用のイメージができる。
- データの匿名化時は、どのように活用されるかのイメージがないと、どのようは有用性を重視して加工すべきかわからないという課題がある。合成データを先に試用してもらい、利用目的を把握できれば、その利用目的に合わせた有用性を維持する加工ができる。
-
合成データの課題:
- 合成データでも97%の精度がでるという話があったが、そのデータはほとんど加工されていない危ない合成データの可能性がある。安全な合成データかどうか判断するためにもリスクアセスメントツールが求められる。
- 合成データを使うか、最終的な意思決定をユーザー企業がしなければならないことも課題として考えられる。医療や金融分野ではデータ活用がもともとされており、倫理審査委員会などがあるため実行へのハードルは低い。一方で、その他の分野では最終的な意思決定のハードルが高いのではないか。
終わりに
このセミナーを通じて合成データの潜在的なリスクと具体的な活用事例を深く理解できました。データプライバシーを保ちつつ新たなビジネス機会を創出する有力な手法として、課題は多いが、その可能性を感じました。