データプライバシーに関するものは、日本ではエンジニアリングからは遠いことが多く、「機微なデータをテストで使う時はその項目をマスクする」くらいしか語られていなかったり、サービスを退会しても割とデータそのまま残してたり、と無頓着な現場も多くあるように思えます。
匿名化と仮名化
データプライバシーを確保するにあたって、まず匿名化と仮名化を区別しなくてはなりません。
- 仮名化
- データの識別情報を別のものに置き換える
- 匿名化
- データから識別情報を取り除き、元のソースがわからないようにすること
仮名化の手法としては以下の種類がある。
仮名化手法 | 説明 | 例 |
---|---|---|
マスキング | データに「マスク」を適用することで、多くの場合、値を標準的な一連の値に置き換える。 | 888-23-5322 → XXX-XX-5322 |
トークン化 | 1対1の置き換えを可能にするルックアップテーブルを介して、識別可能なトークンを置き換える。 | Mondo Bamber → Fiona Molyn |
ハッシュ化 | ハッシュの仕組みを使って、データを解釈しにくくする。だが、まだ元のデータとの紐付けはある。 | foo@bar.com → 32dz22945nzow |
暗号化 | 暗号やその他の暗号技術を用いて、データを類似のデータに置き換えること。これも元のデータとの紐付けが残ることが多い。 | (0)30 4344 3333 → PYHgXEzWaqKANNBEEZJceg== |
仮名化によってはプライバシーは保護できないし、部分的に匿名化してもプライバシーを完全には保護できません。
すなわちテストのために本番データを仮名化や匿名化してテスト環境に持ってくる、というのは、割とやっている現場は多いように思えますが、センシティブデータが直接漏れることはないものの、個人を特定できることはある、という点に注意しなければなりません。
ちょっと極端な例ですが、データベースに含まれる顧客の住所が以下のようなカラムに分かれて格納されていたとします。
- 都道府県
- 市区町村
- 番地以降
住所が漏洩しては不味いので、各項目を暗号化します。
都道府県 | 市区町村 | 番地以降 |
---|---|---|
AP2Ht2hsvO3XqCQ8Rk187A== | NNBs/OOSVjmzA/JwZHsSjg== | 2-1-1 |
6TLAg7HgX8GCfWK1cgrGwA== | /kCvD2FjrIDB6P9K0nU5iw== | 3-7 |
AP2Ht2hsvO3XqCQ8Rk187A== | erpdivO7JUDyU4qDdHyHfg== | 6-12-1 |
暗号化してあるから、鍵が漏洩しない限り大丈夫と一見思ってしまいがちですが、このデータが十分にたくさんのレコード数があれば、これと都道府県および市区町村の人口統計と比べると、都道府県や市区町村の推測が出来てしまいます。
このように他の断片的な情報と組み合わせて、統計的推測を加えることで、非匿名化や再識別化が出来てしまうので、完全にプライバシーが保護されるわけではないということなのです。
これは実際に過去何度か問題になっています。
- Netflix Prize問題: IDを仮名化していたが、別の映画レビューサービスの投稿履歴との突合で個人が特定された
- マサチューセッツ医療データ問題: 氏名を削除して匿名化されたデータから個人が特定された
プライバシー保護はグラデーションであって、どこまで守りたいかによって適切なレベルを選ぶ必要がある、と『Practical Data Privacy』では述べられています。特に第3者に公開する場合は、強いプライバシー保護が求められます。
差分プライバシー
この匿名化、仮名化したデータに対して、非匿名化や再識別化させないために、データの統計処理に影響を及ぼさない範囲でノイズを含めて保護する手法を差分プライバシーと呼ばれています。
※ 理論的な解説は記事末尾にリンクした日本銀行金融研究所のPaperが詳しいです。
ただ差分プライバシーは、攻撃者が有用な情報を得られる確率を下げる手段に過ぎないので、プライバシーが完全に保証されるわけではありません。
まとめ
『Practical Data Privacy』には、差分プライバシー以外にも、多くのプライバシー研究の成果が紹介されていたり、GDPRやCCPAの解説が載っていたりするので、非常に勉強になります。
データプライバシーは、現在はビッグデータや機械学習の大量データの利活用の分野でホットなテーマですが、近い将来、アプリケーション開発においても必要な知識・設計になると思われます。
日本銀行金融研究所のこのPaperが、『Practical Data Privacy』に書かれているエッセンスを含んでいるので、データプライバシーに少し脅威・興味を感じた方はまずこちらをまず読んでみると良いかと思います。
https://www.imes.boj.or.jp/research/papers/japanese/kk41-4-4.pdf