1. 概要
この論文では、一度の学習で推論可能な、プライバシー状態を検査できる”Differencial”(分離可能な)機械学習システムを提案している。"Differential Privacy"(分離可能なプライバシー情報)の定義として、あるランダムなアルゴリズム(M)が存在するとき分離可能なプライバシー性を持っていれば、データセット全体(x)に対して追加あるいは削除した特定の個人情報(x')は以下の分布式(ε, σ)に従うとしている。
提案手法では、複数のデータセットの学習対象を独立に追加したり除外したりできる学習データの並列作用を利用しており、統計的な汎化性と分離可能なプライバシーとの関連性を調べたうえで、データセットごとのプライバシー情報のコストを最小化するように設計されている。これにより、分布式(ε, σ)の上限と下限の境界条件を明らかにした。
*Oral Paper
2. 新規性
提案手法は、一度の学習で即座に推論可能なプライバシー情報の検査方法を新規性としており、従来手法では数百回から数千回の学習が必要だったことから、実用面での効率性を各段に飛躍させた。
3. 実現方法
あるデータセットから100,000のモデルを学習したものをオレンジの分布で表現しており、これとは別のデータセットから学習された100,000のモデルを青の分布で示している。ある閾値(τ=2.64)を設けると、True Positiveが4.922%となりFalse Positiveが0.174%となった。Clopper-Pearson境界条件を用いることで、ε>2.79を満たす場合、分布面積は1-10^-10となる。
ここで、システムが推定に成功した回数がランダムな回答で正解した回数を下回った場合、そのアルゴリズムは(ε, σ)を満たす。
4. 結果
アルゴリズムのステップに従って、最初のm個の例の中にプライバシー情報を50%の確率で含め、各列に対してスコアを計算し、これらのスコアに従って個別のプライバシーの例が含まれているかをシステムが推定する。
実験は、モデルの重みのすべての中央値を利用するホワイトボックステスト(左図)と、最終的なモデルの重みしか与えられず最終的なモデルのみクエリを発行できるブラックボックステスト(右図)で行われている。ホワイトボックステストは、Federated Learning(連合学習)を想定しており、ブラックボックステストは中央集権的なシステムを想定している。左図では、検査対象の例が増えるほどεの下限を実験的に求めることができていることを示している。右図では、追加の例を増やすとブラックボックステストの検査結果に対してかなり変動的な影響を与えることを示している。
Paper URL: https://openreview.net/pdf?id=f38EY21lBw
last updates: Jan 5 2024