この記事は
THE UNITED NATIONS GUIDE ON PRIVACY-ENHANCING TECHNOLOGIES FOR OFFICIAL STATISTICS.2023 をざっくり読みながら、メモを書いていきます。130ページあって読むのが大変なので、どこに何が書いてあるのかをガイドします。ガイドのガイドがしたいです。
全体概要・章立て
公的統計の作成...に主眼をおきつつ、技術・事例・法対応について整理されていました。
- 1章 : PETsの紹介
- 機微情報を利用した公的統計の作成を、正確かつ安全に行うことを目標に、有用な技術を整理している
- (感想)「PETs」って、日本語のプレゼンでは、あんまり使われない印象。
- 機微情報を利用した公的統計の作成を、正確かつ安全に行うことを目標に、有用な技術を整理している
- 2章 : PETsの技術解説
- マルチパーティ計算、準同型暗号、差分プライバシー、合成データ、分散学習、ゼロ知識証明、TEE
- (感想)日本総研様のプライバシー強化技術の概説と動向でも、大半が解説されています。合成データとゼロ知識証明が差分。
- 匿名化(de-identification)はClassicalなアプローチ(1章2節より)
- (感想) Classical。技術的にはそうですよね...。
- 3章 : PETsを利用したデータ活用事例
- 公的統計の作成...の取り組みを中心に、18種類の事例を紹介している
- (感想)日本の事例は無し
- (感想)産業界の事例は、日本総研のプライバシー強化技術の概説と動向によくまとまっていると思います
- 公的統計の作成...の取り組みを中心に、18種類の事例を紹介している
- 4章 : PETsに関連する標準・規格
- ISO****等との関係について整理されている
- (感想) いつ読むかなあ...
- 5章 : 法規制の課題
- 各国の法規制への対応についての調査・考察
- (感想) いつ読むかなあ...直近、日本の法律しか興味がない...
章別のメモ
1章: PETsの紹介
- TODO: 適当に読む
2章: 技術解説
- TODO: 合成データとゼロ知識証明について読む
3章: 事例紹介
事例まとめ
- とりあえずP.62のTable3.1を訳してみました
- Applicationのところを見て、興味がある実用の内容について、詳細を調べてみようと思います
# | 事例 | 目的 | データセット | 技術 | 応用 | ステータス |
---|---|---|---|---|---|---|
1 | ボストン 労務局 | ジェンダーや人種と給与格差の分析 | 人工統計データと、企業の給与情報 | マルチパーティ計算 | Secure vector addition | 実機化 |
2 | EU 統計システム | スマートデバイス・センサーを利用した、既存統計調査の高度化 | 調査参加者のデバイスから取得したセンサーデータ | 連合学習、マルチパーティ計算、準同型暗号 | Privacy-preserving statistical analysis | 実証実験 |
3 | EUの統計局 | 携帯電話の通話情報を利用した、日次の人流分析 | 1億台分の携帯電話の通話データデータの集計値 | TEE | Privacy-preserving statistical analysis | 実証実験 |
4 | インドネシアの観光庁 | 携帯電話2社のデータを安全に結合して分析を行う | TODO | TEE | Privacy-preserving statistical analysis | 実機化 |
5 | イタリアの統計局と政府銀行 | 家計調査と金融データを結合して、より詳細な分析を行う | 統計局のデータと、銀行のデータ | マルチパーティ計算 | Private Set Intersection with Analytics | パイロット |
6 | イギリスの統計局 | 分析パイプラインと分析システムのテスト用に、合成データを利用する | 国勢調査データ、人口動態データ、コロナ感染調査データ | 合成データ、差分プライバシー | Generating high quality data to test engineering and analytical pipelines | 実証実験 |
7 | 韓国サムスンSDS | 第三者に頼らずに安全なデータ収集・分析を行う | 検証用のテストデータ | マルチパーティ計算 | Private Set Intersection | 実証実験 |
8 | カナダの統計局 | 悉皆性のある?政府統計データと比較して、サードパーティデータのカバレッジを評価する | TODO | マルチパーティ計算 | Exact privacypreserving data matching with a keyed-hash function | 実証実験 |
9 | カナダの統計局 | 機微情報の分析を、クラウドの計算環境を利用しつつ、安全に行う | 商品説明の合成データ | 準同型暗号 | Supervised text classification | 実証実験 |
10 | カナダの統計局 | 合成データを利用した、データ分析研修用データの作成 | 人口動態データ | 合成データ | Generating high quality data for training and hackathons | パイロット |
11 | 韓国の統計局 | クラウドの計算環境を利用した、安全なデータの結合分析プラットフォーム | いろいろな公的?データ | 準同型暗号、マルチパーティ計算、差分プライバシー | Descriptive statistics and logistic regression in the proof of concept | パイロット |
12 | オランダの統計局 | 機微なヘルスケアデータを利用した、心臓疾患の予測 | 病院のデータと、国政調査データ? | マルチパーティ計算、準同型暗号、秘密分散、連合学習 | Record linkage and development of machine learning models | コンセプト |
13 | オランダの統計局 | eHealthソリューションの効果の測定を、患者の情報を共有せずに行いたい。 | 病院、保険会社、国政調査のデータ。 | 準同型暗号、秘密分散、マルチパーティ計算(PoC用データとして合成データを作成) | Private set intersection with analytics | パイロット |
14 | Twitter社とOpenMined社 | 企業の機密データを開示せずに、外部の研究者が分析を行いたい。 | Twitter社のデータ。 | 差分プライバシー、マルチパーティ計算、連合学習(開発・PoC用データとして合成データを作成) | Remote Data Science | PoC(実行中) |
15 | 国際連合 | スマートデバイスで収集されるデータを、安全に収集・分析したい。 | 公開されている、スマートデバイスでセンシングした、人間の動きのデータ。 | 連合学習、準同型暗号、差分プライバシー | Development of a machine learning model. | PoC |
16 | 国際連合 (PET Lab) | 国ごとに収集した貿易データを、安全に収集・照合・分析したい。 | 当初は国連の貿易データを利用して、徐々に外部のデータも利用している | 差分プライバシー、マルチパーティ計算、Secure Enclave | Reconciliation and joint trade analysis | PoC(実行中) |
17 | アメリカ統計局 | 国勢調査として収集した機微情報を、安全に開示したい | 2020年の国勢調査データと、その他年次調査データ | 差分プライバシー | Statistical disclosure | 実機化(法的な課題あり) |
18 | アメリカ教育庁 | 大学生のローンや奨学金の状況についての分析を行いたい。 | 学生の、ローンや奨学金に関わる金融データ | マルチパーティ計算 | Private Set Intersection with Analytics | パイロット |
個別調査
-
#6 合成データによる機械学習パイプライン構築支援。テスト用のデータを手に入れるのが難しかったりしますが、安全な合成データを利用してシステムだけ作り、最後に本番データを流すのは、合理的に思えます
- 合成データの安全性保証、が欲しいですね
- 合成データを本番データを区別する仕組み、も欲しい気がします。取り違えで分析すると困りますし
-
#8 国勢調査のデータを持っている政府統計期間のデータを利用して、第三者(外部)のデータの品質を評価するサービスの検討。PSI:秘密共通集合演算を利用することで、安全に突き合わせ+集計を行う
- 具体的にどういう第三者機関を想定しているのだろうか...よくわかりませんが、国民全体のデータを持っている国勢調査のデータとの比較は、価値がありそうです。
- ドコモさんのプライバシー保護クロス集計を思い出しました
-
TODO: #10のハッカソン用データ生成も良いですね
4,5章
- いつか読む
感想
- 国を跨いだデータの連携は、各国の法律の対応が大変そう。国連が先陣を切って事例を作ってくれるのは助かるので、こういうペーパーが国連から出てくるのは助かりますね
- Secure EnclaveってTEEのことかと思っていました。違いを調べます
- (他の章を読んで、何か思うところがあれば、追記します)
以上です。