Mobile Sensor Data Anonymization まとめ
読んだ論文
Mobile Sensor Data Anonymization
Mohammad Malekzadeh, Richard G. Clegg, Andrea Cavallaro, Hamed Haddadi
https://arxiv.org/abs/1810.11546
上記の論文を読んだので簡単にまとめます.Preprintのみの様子です.
3行でまとめる
- スマホ等のセンサデータを用いた研究が流行っているが,センサデータは個人情報を含んでおり,情報暴露のリスクがある.
- 生センサデータをDeepAutoEncoderで個人を特定しづらい(が,元データから離れすぎない)形に変換する.
- 独自の多目的損失関数(式(1))を定義し評価実験した.
損失関数
$$
F(A(\boldsymbol{X})) = \beta_i I(\boldsymbol{U}; A(\boldsymbol{X})) - \beta_a I(\boldsymbol{T}; A(\boldsymbol{X})) + \beta_d d(\boldsymbol{X}, A(\boldsymbol{X})) \tag{1}
$$
ここで,$\boldsymbol{X}$は元のセンサデータ,$A(\boldsymbol{X})$は提案手法で変換後のセンサデータ,$\boldsymbol{U}$はユーザ,$\boldsymbol{T}$は推定対象(今回は行動)である.関数はそれぞれ,$I(\cdot;\cdot)$が相互情報量,$d(\cdot, \cdot)$が距離(今回はMSE)である.各$\beta$は0-1の重みで,匿名性,認識精度,元波形の維持率どれを優先するかトレードオフで決定するパラメータである.
即ち,上記式(1)は変換後の$A(\boldsymbol{X})$からユーザ$\boldsymbol{U}$への相互情報量を下げつつ,$A(\boldsymbol{X})$から対象$\boldsymbol{T}$への相互情報量を上げつつ,$A(\boldsymbol{X})$からと元データ$\boldsymbol{X}$のMSEを下げるようにネットワークを訓練するということになる.
モデル構造
スタンダードなConvolutional Encoder-Decoderモデルなので詳細は割愛する.
評価実験
実験設定
- 被験者24名(男14:女10)
- 6行動を2~3セット計測(歩行,走行,階段上り,下り,座る,立つ)
- 加速度とジャイロセンサで50Hz計測
- 評価は2パターンの分離で実施する.
- ユーザベース:4名(男2:女2)をテスト,残り20名を訓練に使用する.
- トライベース:各行動の1セットをテスト,残りセットを訓練に使用する.
- センサデータは時系列分割で窓サイズは128(2.56sec),ストライドは10
実験結果
- 比較対象(Baseline)の理解まではせず...
- 比較対象と比べ,行動認識精度は微増,個人特定のACCは半分以下に,元データとの離れ具合DTWも最良という結果に.
まとめ
- センサからの情報暴露を防ぐために,Autoencoderで実用に害がないように変換しようという企画でした.
- 手法はとてもシンプルで読みやすいです.
- 同じような企画としては日本語論文で東大松尾研からも出ていますのでこちらも要チェックですね.
- ユーザ敵対型ニューラルネットワーク, 人工知能学会論文誌, 32(4), 2017.
- https://www.jstage.jst.go.jp/article/tjsai/32/4/32_A-GB5/_article/-char/ja/
所管
なんとなく一日一編の論文を要約していこうと思い立ったが吉日早速始めてみたものの,論文選定~Qiitaアカウント作成~要約完了まで2時間ほど.手法が簡単だったこともあり,読むことよりもどこ要約するか考えたり,Markdown戸惑ったりすることが多かった気がします.毎日2時間かかってると続かないので,もう少し適当な感じで今後も続けていければと思います.