More than 5 years have passed since last update.

Deep Learning論文紹介Advent Calendar 2019

@wataoka(綿岡晃輝)

2019年、俺の読んだ論文50本全部解説(俺的ベスト3付き)

Last updated at 2020-06-19Posted at 2019-12-30

この記事は私が一人で2019年の1年間をかけて作り続けた論文要約の超大作記事です.

俺的ベスト3

第一位 Focal Loss for Dense Object Detection

物体検知のためのFocal Loss

これは不均衡データに対処するための損失関数Focal Lossを提案した論文なのですが, とにかくそのシンプルさにやられました. 画像のFLの式を見てください. たったこれだけです. ptは正解ラベルに対する予測値なのですが, ptが大きければ大きいほど損失値をしっかり抑えられるように設計された関数となっています. 正解ラベルに対して0.6と予測するサンプルを学習に重要視せず, 0.3とか0.1とか予測しちゃうサンプルにしっかりと重要視するのです. 自分も7月くらいまでは不均衡データに関する研究していたのですが, 自分が考えた多くのアイディアが結局Focal Lossの下位互換に帰結してしまうのです. しかもこの損失関数の汎用性は非常に高く, あらゆるタスクに入れることができます.

ICCV2017
https://arxiv.org/abs/1708.02002
2018/01/07
Focal Lossという新しい損失関数を提案した。Focal Lossはデータに対する正答性に応じて動的に損失値を変更する。
FL(p_t)=-(1-p_t)^Υ log(p_t)をretina netというモデルに適用した。
物体検知データセットCOCOにおいてSOTA
FLの式がかなりシンプル。FLではclassへの重みを正答性としたが他にもありそう。F値を使うのも良さそう？

第二位 Class-Balanced Loss Based on Effective Number of Samles

有効サンプル数に基づくクラスバランス損失

第一位に続き, 付近データに対処するための損失関数の論文です. 真のデータの価値というものはデータ数ではない. という鋭い指摘とその解決策(?)を示した論文です. 例えば, 犬を認識させるために10,000枚のチワワの画像と5,000枚のあらゆる犬種の画像があるとします. データの価値は明らかに後者の方が良いはずです. このようにデータ数は真の価値を表しません. この論文ではデータをサンプルすればするほど価値は下がるということを前提として, サンプル数に依存した損失関数を提案しています. どのように損失関数を変化させれば良いかについても理論的に解析されており, 非常に奮い立ちました. ただ, 結局データ数しか見ていないことには少し残念です.

CVPR2019
https://arxiv.org/abs/1901.05555
2019/1/16
データ空間においてデータ点の近傍領域の重なりが存在するので、データをサンプルする度にその価値が減衰していくことを仮定し、classバランスした損失関数を提案した論文。
実サンプル数をn, 有効サンプル数をE_nとした時、CB=(1/E_n)Lossとした。CBをResNetに適用した。E_n=(1-β^n)/(1-β)であることも証明している。
Long tailed CIFAR-10, 100とiNaturalist 2017, 2018とILSVRC2012において実験を行い、いい成績を納めた。
E_nの導出途中、oversampleする確率pを求めているが、データ空間上でデータが一様分布に従うことを仮定している。学習が進むにつれてデータは密集していくのだからepochに合わせて確率pは大きくなるのでは？

第三位 One-network Adversarial Fairness

ひとつのネットワークの敵対的公平性

第三位は公平性に関する論文です. 非常にシンプルな公平性のためのin-process手法です. 画像のようにpenultinate layer(最終層の1個手前の層)から2つに分離します. 一方では普通にタスクを解いて, 一方ではセンシティブ属性(性別や人種などの差別的な情報)を予測します. 前者は普通に勾配を伝播し, 後者は負の勾配を伝播します. これのよって, penultimate layerはセンシティブ属性を予測できない特徴量を出力することになり, だんだんと差別がなくなるモデルが手に入るという手法です. どっか(domain adaptation)で見たことある手法なのですが, それでもやっぱりいち早くfairnessに適応させたことは素晴らしいことだと思い, 第三位としました.

AAAI2019
http://mlg.eng.cam.ac.uk/adrian/AAAI2019_OneNetworkAdversarialFairness.pdf
より公平かつよりaccuracyなclassifierにするモデルFAD(Fair Adversarial Discriminative model)を提案。
任意の分類器の最終層に新たなレイヤーgを追加する。その出力x'を用いて普通に分類するf'とsensitive属性sかどうかを判別するφ'を用意する。gをφ'のLossを増やすように学習する。x'からsのLossを消去するgを学習することができる。
COMPASとAdultで実験した。
Fairnessを失わせる攻撃でない。

俺の読んだ論文50本

基本的に, タイトル, 日本語タイトル(自作)を書いた後に

受賞(あれば書いてる)
URL
投稿日
概要
手法
結果
コメント

と記載しています.

一般

Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour

正確な大規模ミニバッチSGD: 1時間でImageNetをトレーニング

https://arxiv.org/abs/1706.02677
2017/1/8
大規模なミニバッチでトレーニングさせると精度が劣化するのが普通だが、それを改善した論文。
①バッチサイズに比例させて学習率を大きくする(Linear Scaling)。②学習開始時5epochsは学習率を徐々に大きくする(Warmup)
ImageNetを1時間で精度を落とすことなく学習できた。

Large-Margin Softmax Loss for Convolutional Neural Networks

CNNのための大きいマージンSoftmax Loss

ICML2016
https://arxiv.org/abs/1612.02295
2016/12/7
L-Softmax(Large-margin Softmax)を提案。L-Softmaxはfeatureにおいてクラス内ではコンパクトに、クラス間ではセパレートにする損失関数。
最終層における内積のcos(α)をcos(mα)にした。これにより、正解ラベルに対する内積を上昇させる方法としてベクトルの長さを伸ばすのではなく、しっかりと角度をつける(ベクトル同士を似せる)ようになる。
MNIST, CIFAR10, CIFAR100, LFW(顔認証)において比較手法に勝った。
Strikingに引用され、比較されている論文。

SphereFace: Deep Hypersphere Embedding for Face Recognition

SphereFace: 顔認識のための深い超球埋め込み

CVPR2017
https://arxiv.org/abs/1704.08063
2017/4/26
A-Softmax(angular softmax)を提案。A-SoftmaxはCNN角度をしっかりと考慮した特徴量判別を行わせる損失関数。L-Softmaxと超似ている。
通常のSoftmax Lossを正規化, cosの形にし, マージンmを加える。
LFW, Youtube Faces, MegaFaceCallengeなどで比較手法に勝った。
Strikingに引用され、比較されている論文。

PyTorch: An Imperative Style, High-Performance Deep Learning Library

PyTorch: 命令的スタイル, 高パフォーマンスディープラーニングライブラリ

https://arxiv.org/abs/1912.01703
2019/12/03
python風なコーディングができてデバッグが簡単であるが売り. どのようなアーキテクチャなのかを説明している.
やっとでたPyTorch論文

Limitations of the Lipschits constant as a defense against adversarial examples

敵対的攻撃に対する防御法としてのリプシッツ定数の限界

https://arxiv.org/abs/1807.09705
2018/01/25
リプシッツ定数が理論的に制限があることを示した論文. また, 代わりとなる手法を示し, その限界も示している. 最後に, 今後の方向性などを議論している.
adversarial attackの防御法としてadversarial exampleだけじゃなく, リプシッツ制約を加える方法もあるよ, でもリプシッツ制約

不均衡データ

Focal Loss for Dense Object Detection

物体検知のためのFocal Loss

ICCV2017
https://arxiv.org/abs/1708.02002
2018/01/07
Focal Lossという新しい損失関数を提案した。Focal Lossはデータに対する正答性に応じて動的に損失値を変更する。
FL(p_t)=-(1-p_t)^Υ log(p_t)をretina netというモデルに適用した。
物体検知データセットCOCOにおいてSOTA
FLの式がかなりシンプル。FLではclassへの重みを正答性としたが他にもありそう。F値を使うのも良さそう？

Class-Balanced Loss Based on Effective Number of Samles

有効サンプル数に基づくクラスバランス損失

CVPR2019
https://arxiv.org/abs/1901.05555
2019/1/16
データ空間においてデータ点の近傍領域の重なりが存在するので、データをサンプルする度にその価値が減衰していくことを仮定し、classバランスした損失関数を提案した論文。
実サンプル数をn, 有効サンプル数をE_nとした時、CB=(1/E_n)Lossとした。CBをResNetに適用した。E_n=(1-β^n)/(1-β)であることも証明している。
Long tailed CIFAR-10, 100とiNaturalist 2017, 2018とILSVRC2012において実験を行い、いい成績を納めた。
E_nの導出途中、oversampleする確率pを求めているが、データ空間上でデータが一様分布に従うことを仮定している。学習が進むにつれてデータは密集していくのだからepochに合わせて確率pは大きくなるのでは？

Cost-Sensitive Feature Selection by Optimizing F-measures

F値の最適化によるCost-Sensitive特徴選択

https://arxiv.org/abs/1904.02301v1
2019/4/4
F-measureを最適化するように特徴量選択を行うことで、accuracyをよりよくする。

Max-margin Class Imbalanced Learning with Gaussian Affinity

ガウス類似性を用いたマージン最大化クラスバランス学習

https://arxiv.org/abs/1901.07711
2019/1/23
Affinity Lossという損失関数を提案した論文。特徴量をクラスタリングし、決定境界のマージン最大化と、クラスターの重心の均一化を図っている。
exampleの特徴量fとクラスタiの重心wiの類似度d(f, wi)を定義し、それを用いることで、Max margin Loss: LmmとDiversity regularizer: R(w)を定義した。Lmmはマージン最大化, R(w)は重心均一化の役割を持つ。Affinity Loss=Lmm+R(w)
顔認証のデータセットLTFとYTFにおいて様々な手法に勝った。
Diversity regularizerの方に引っかかった。均一化するのではなく、クラス間の類似度順の距離にするべきではないか。

Learning to Model the Tail

Tailのモデル化学習

imbalance/meta learning
NIPS2017
https://papers.nips.cc/paper/7278-learning-to-model-the-tail
2017/11/2
long tailにおけるheadでのknowledgeをtailに応用させた。MetaModelNetはサンプル数を増やしたときにモデルパラメータがどのような軌道を描くのかを獲得する。
2^i shotのパラメータをi番目のresidual blockに入力とすることで、モデルパラメータの軌道を獲得する。
long tailにおけるSUN397, Place, ImageNetにおいてヒューリスティックな手法に勝った。
over/under-sampling, cost sensitive learning以外の手法の1つなので面白かったが、とりあえずcost sensitive learningに焦点を当てて研究していくつもり。

Trainable Undersampling for Class-Imbalance Learning

不均衡データのための学習可能under-sampling

AAAI2019
http://jkx.fudan.edu.cn/~qzhang/paper/aaai.2019.classimbalance.pdf
2019
既存のunder-samplingは重要な情報を捨ててしまっている。これを解決するためにデータサンプラーをパラメトライズし、強化学習で最適化する。
合成データセットとリアルデータセットの両方で提案手法の有用性を示した。
アイディアがそんなに面白くない。強化学習に丸投げ感。majority classのデータの良い捨て方とは一体なんだ。

Oversampling for Imbalanced Data via Optimal Transport

最適な移動による不均衡データのためのover-sampling

AAAI2019
https://www.semanticscholar.org/paper/Oversampling-for-Imbalanced-Data-via-Optimal-Yan-Tan/33e7e4d7ad01d921544c3bc7097add01e3b65083
2019
幾何学的な情報を使用することでover-samplingする。これにより増強したデータはクラスの分布に従うようになる。
増強サンプルに基づく新しい正則化手法を導入することで、損失情報に応じてminority classの分布を移動させる。
toy problemとリアルデータセットのどちらもで提案手法の有用性を示した。
細かい手法をちゃんと読めていない。

Exploiting Synthetically Generated Data with Semi-Supervised Learning for Small and Imbalanced Datasets

小規模で不均衡なデータセットのための半教師あり学習による合成生成データの活用

AAAI2019
https://arxiv.org/pdf/1903.10022.pdf
2019/3/24
凸組み合わせデータの有用性を検証し、合成サンプルにラベルをつける必要性をなくすことで、svmを用いた半教師あり学習でのこれらの教師無し情報として使用する。

敵対的攻撃

Generative Adversarial Minority Oversampling

少数派オーバーサンプリングの敵対的生成

https://arxiv.org/abs/1903.09730v1
2019/3/22
GANを用いてminorityクラスのデータをoversamplingした論文。oversamplingするG、クラスタリングするM、real or fakeを見抜くDのthree player。
Gが実データの凸結合としてデータを生成することで凸包性を保ち、実データの分布から外れないように制限している。
MNIST, Fashon-MNIST, FIFAR10, SVHN, LSUN, SUN397において他の手法を上回った。
Gは凸結合によって分布から外れないように制限されているが、最初からVAEのように分布のパラメータを学習すればいいのでは？

Explaining and Harnessing Adversarial Examples

敵対的サンプリングの説明と利用

https://arxiv.org/abs/1412.6572
2014/12/20
機械学習がadversarial exampleに弱いのは線形性から説明できると指摘した論文。線形性に着目してFast Gradient Sign Method (FGSM) というadversarial exampleを高速に計算する手法を提案している。
wを重みとすると、sign(w)の方向に摂動を加えれば出力を大きく変化させられる。従って、摂動ηをη=εsign(∇_xJ(θ, x, y))としている。

Virtual Adversarial Training: A Regularization Method for Supervised and Semi-Supervised Learning

仮装敵対トレーニング: 教師あり及び半教師あり学習のための正則化法

https://arxiv.org/abs/1704.03976
2017/4/13
virtual adversarial lossに基づく新たな正則化手法を提案した。virtual adversarial lossとは、入力に対する条件付き分布の"スムーズさ"に関する尺度。
摂動を与えた時の事後確率の移動距離をD(x)=D[P(y|x), p(y|x+r)]とし、rはDを最大にする値に設定される。
SVHNとCIFAR-10の半教師あり学習においてSOTA

mixup: Beyond Empirical Risk Minimization

mixup: 経験的リスク最小化を超えて

ICLR2018
https://arxiv.org/abs/1710.09412
2017/10/25
ERM(Empirical Risk Minimization)で起こってしまうトレーニングデータの記憶やadversarial examplesに対する脆弱性を改善するためにmixupというoversampling法を提案している。
xを入力データ, yをラベルとすると、λx_i+(1-λ)x_j と λy_i+(1-λ)y_j を新たなx, yのデータとする。λはベータ分布から生成する。
ImageNet-2012, DRFAR-10, CIFAR-100, Google commands and UCI datasetsで精度を向上。
empirical riskだと同じデータは存在しないので、ただ平均をとってるだけになる。近いデータには価値が少ないと考えると、データに大きさを持たせ、被覆度に合わせて学習率を変える方がいいのでは？

The Limitations of Deep Learning in Adversarial Settings

敵対的環境における深層学習の限界

https://arxiv.org/abs/1511.07528
2015/11/24
Jacobian-Based Saliency Map Approach(JSMA)というsouce/target misclassificationタイプの攻撃を提案した。
ピクセル単位で, あるターゲットへの勾配adversarial saliency map, S(X, t)[i]を計算する。FGSMと異なり、JSMAは少数のピクセルにだけ摂動を与えるという特徴を持つ。計算量はJSMA>FGSM。
MNSITでDNNに97%の誤分類をさせた。

Practical Black-Box Attacks against Machine Learning

機械学習に対する実用的なBlack-Box攻撃

https://arxiv.org/abs/1602.02697
2016/2/8
Black-Boxという状況下でも使える攻撃を提案。Black-Box攻撃とはtarget modelの入力と出力ラベルしか観測できない状況のこと。
target modelの代わりとなるsubstitute modelを手元で学習させ、それを元のadversarial exampleを作る。adversarial exampleはFGSMなどを用いている。
DNN APIに対して84.24%の誤分類をさせた。

Distillation as a Defense to Adversarial Perturbations against Deep Neural Networks

DNNに対する敵対的摂動への防御としてのDistillation

https://arxiv.org/abs/1511.04508
2015/11/14
Distillationという既存手法を使って、adversarial exampleに対するディフェンスを提案した論文。
Distillationとは生徒ネットワークは教師ネットワークの出力値をラベルとして学習する。これにより、犬と狼の類似度まで学習させる手法。教師ネットワークの出力値に温度付きsoftmaxを使うことで、外れクラスの確率を増やす。
MNISTとCIFAR-10でadversarial example(JSMA)による攻撃の成功率を95%から0.5%に下げた。
distillationに攻撃成功した論文 (https://arxiv.org/abs/1607.04311) や、拡張モデル (https://arxiv.org/abs/1705.05264) もある。

Imperceptible Adversarial Attacks on Tabular Data

気づかれにくい表データに対する敵対的攻撃

adversarial attack
https://arxiv.org/abs/1911.03274
2019/11/08
adversarial attackは画像データに対してばかりだけど, 表データにも考えた論文. attackには気づかれにくさ(imperceptible)という概念が大切だから表データでも定義している.
imperceptibleを摂動rとfeature importanceとのアダマール積のLpノルムとして, -Lとimperceptibleを最小化するようにxを編集する. 入力データのカテゴリカルデータを削除することでLのxに関する微分を可能にしている.
success rateではdeep foolに負けているけど, 気づかれにくさでは勝っている. (目的関数に入れているのだから当たり前)
表データへの対応策が結局カテゴリカルデータの削除ってところが残念だったけど, しっかりと定式化してくれたのは嬉しい. 比較手法としてDeepFoolとFGSMが書かれているが, 表データに対する実装を公開してほしい...

ドメイン適応

Domain-Adversarial Training of Neural Networks

ニューラルネットの敵対的ドメイン学習

https://arxiv.org/abs/1505.07818
2015/05/28
domain adaptationをadversarial trainingで解こうぜって言い出した論文。1000回以上引用されてる。

埋め込み

On Learning Density Aware Embeddings

密度を意識した埋め込みの学習

https://arxiv.org/abs/1904.03911
2019/4/8
埋め込み空間上でデータ点が密度の高い方向へ埋め込まれるように学習するDensity Aware Metric Learningを提案。
triplet lossのアンカーをデータの中心とする。中心は従来手法では重心だが、ここでは重心近傍の重心へと更新する方法で決定する。中心をCとすると、Density Aware Triplet Loss=[||C-g(z_a)||^2 + ||C-g(z_b)||^2 + α]+。(4つverのDAQLも提案している。)
顔認証のSCfaceとFaceSurv、物体認識のCIFAR10とSTL10において、Triplet lossやQuadruplet lossやTriplet center lossなどを超えた。
そもそも密度の高い位置に中心を持っていくのがベストなのか？クラス内の少数派の移動距離が長くなるから間くらいにある方がいい気がする。あと、中心の移動方法はあれでいいのか？

不確実性

Bayesian Uncertainty Estimation for Batch Normalized Deep Networks

バッチ正規化されたディープネットワークのためのベイジアン不確実性推定

ICML2018
https://arxiv.org/abs/1802.06455
2018/2/16
バッチ正規化がベイジアンモデルの推論であることを示し、バッチ正規化を用いた不確実性の推定方法MCBN(Monte Carlo Batch Normalization)を提案。
学習時, バッチ正規化に使用される平均と分散は選択されるミニバッチに依存するので、ランダム性が存在している。これより、T(=500)回ミニバッチを取得し、それぞれのミニバッチにおける平均と分散でバッチ正規化を行うことで分布を得る。あと、不確実性を定量的に示す新しい可視化の方法も提案した。
PLLとCRPSという定量的評価指標を用いて、実験を行なった。様々なタスクにおいてベースラインを超えた。
可視化のところと、評価指標のところをあまり理解していない。モデルにランダム性があればuncertaintyなら入力ベクトルに全方向の摂動を加えることでuncertaintyになるんじゃない？

Striking the Right Balance with Uncertainty

不確実性を用いて正しいバランスをとる

CVPR2019
https://arxiv.org/abs/1901.07590
2019/1/22
rare classはuncertaintyが高いという仮説の下、uncertaintyが高いデータに対して大きくマージンをとるように設計したLossを提案した論文。
class-levelではベイス推定でuncertaintyを考慮してクラス間のマージンを最大化するようにし、sample-levelではそれに加えて各サンプルを多変量ガウス分布でモデリングし, その二次モーメントまで考慮してクラス境界を調整している。
顔認証, 文字認識, 物体認識など6つのベンチマークにおける精度の向上を示した。

公平性

公平性に関する専門用語を少し書いておきます.

fairness: 公平性 (機械学習モデルの判断が人種や性別などに影響しない)

センシティブ属性: 性別や人種など差別を生む属性

バイアス: 差別を生む諸悪の根源全般. (主にデータに潜むクラス間の偏り)

上のfairnessの説明は定義ではありません. 直感的で適当な説明です. 詳しくは別に私が書いた記事がありますので, どうぞご覧ください → Fairness入門

Fairness Without Demographics in Repeated Loss Minimization

繰り返し損失の最小化における人口統計のない公平性

https://arxiv.org/abs/1806.08010
2018/1/20
ERMではrepresentation disparityとdisparity amplificationが起こってしまう。これを防ぐDRO(Distributinoally Robust Optimization)を提案。

A Survey on Bias and Fairness in Machine Learning

機械学習におけるバイアスと公平性に関する調査

https://arxiv.org/pdf/1908.09635
2019/9/17
様々なbias, discrimination, fairnessに関する定義に近いものと様々なmethodが書かれている。
サーベイの中では割とわかりやすい方だった。biasとfairnessの定義はためになったが、手法についての説明は何かしらの論文のIntroとかを見た方が良い。

Improving Fairness in Machine Learning Systems: What Do Industry Practitioners Need?

機械学習システムにおける公平性の向上: 業界の機械学習使用者が必要としていることは何か。

https://arxiv.org/abs/1812.05239
2019/1/7
25個のML製品, 35人の現場の人に調査を行った. 調査の結果として, どのような領域にfairnessの需要があるのかを特定した.
あんまり読んだ意味なかった...笑

One-network Adversarial Fairness

ひとつのネットワークの敵対的公平性

AAAI2019
http://mlg.eng.cam.ac.uk/adrian/AAAI2019_OneNetworkAdversarialFairness.pdf
より公平かつよりaccuracyなclassifierにするモデルFAD(Fair Adversarial Discriminative model)を提案。
任意の分類器の最終層に新たなレイヤーgを追加する。その出力x'を用いて普通に分類するf'とsensitive属性sかどうかを判別するφ'を用意する。gをφ'のLossを増やすように学習する。x'からsのLossを消去するgを学習することができる。
COMPASとAdultで実験した。
Fairnessを失わせる攻撃でない。

Fairness Behind a Veil of Ignorance: A Welfare Analysis for Automated Decision Making

無知のベールの背後にある公平性: 自動化された意思決定のための福祉分析

NIPS2018
https://arxiv.org/pdf/1806.04959
2019/01/11
ロールズの「無知のヴェール」に基づいたfairnessの測定法を提案
COMPASとCrime and Communitiesで実験した。

Enhancing the Accuracy and Fairness of Human Decision Making

人間の意思決定における精度と公平性の向上

NIPS2018
https://arxiv.org/abs/1805.10318
2018/05/25
社会は専門家の決定に依存しており、その決定はunfairになりがち。この問題にsequential decision makingの観点から取り組み、制約あり重み付き二部マッチングのsequenceに落とし込めることを示した。
自作データとCOMPASで実験した。

Online Learning with an Unknown Fairness Metric

未知な公平性指標を用いたオンライン学習

NIPS2018
https://arxiv.org/abs/1802.06936
2018/09/18
線形contextualバンディット問題(未知のmetricによってindividual fairnessに関して制約を加えた状況)におけるオンライン学習の問題を考察した論文. individual fairnessを満たしながオンライン学習できる範囲を示している.
Fairnessを達成しつつ, どの程度精度を出せるかのトレードオフを検証している論文. バンディットアルゴリズムに関わるならしっかり読み直したい.

Empirical Risk Minimization under Fairness Constraints

Fairness制約下における経験リスク最小化

NIPS2018
https://arxiv.org/abs/1802.08626
2018/01/26
fairnessを考慮に入れたempirical risk minimizationに基づいたアプローチを提案。
empirical riskとfairnessの境界線を統計的に導く。
Arrhythmia, COMPAS, German Credit, Drug, AdultでSOTA
P{f(x)>0 | y=1, s=a}とP{f(x) | y=1, s=b}の差をDEO(difference of Equal Opportunity)と読んでいた。

Fairness Through Computationally-Bounded Awareness

計算的に制限された認識を通した公平性

NIPS2018
https://arxiv.org/abs/1803.03239
2018/11/28
アルゴリズムがmetricに制限された回数しかアクセスできないという制約を課した。metric multifairnessという新しいfairnessの概念を提案。

Fairness Through Awareness

認識を通した公平性

https://arxiv.org/pdf/1104.3913
2011/12/30
utilityとfairnessはトレードオフな関係で、これを解決するフレームワーク "fairness through awareness"を提案。
「fairな分類器なら似ている個人に対して似た扱いをするべき」というframework
627件も引用されている。多分fairnessの始祖的な論文。

Predict Responsibly: Improving Fairness and Accuracy by Learning to Defer

責任ある予想: 延期を学習させることによるFairnessとAccuracyの向上

NIPS2018
https://arxiv.org/abs/1711.06664
2017/11/17
モデルがPASSと発言し決定をdownstreamに任せられるようにした。これにより、accuracyが上がりバイアスが下がることを示した。
COMPASで実験した。
reject learningを元に考えたって言ってるけど、reject learning(否定学習)を初めて知った。

Evolution of collective fairness in hybrid populations of humans and agents

人間とエージェントのハイブリッドにおける集合的fairnessの進化

AAAI2019
https://www.aaai.org/ojs/index.php/AAAI/article/view/4572
2019/07/17
多分Multiplayer Ultimatum Gameで実験した。
Ultimatum Gameのマルチ版をするとかなんとか言ってるけどさっぱりわからん。後回し。

Group Fairness for Indivisible Goods Allocation

分割できない商品の配分に対するグループ公平性

AAAI2019
https://users.cs.duke.edu/~rupert/group-fairness-aaai.pdf
グループfairnessは分けられない財においては公平性を満たすことはできない。そこで、"up to one good"スタイルリラクゼーションを導入する。
Spliddit.orgからえたインスタンス

Learning Fair Representations

公平な表現学習

https://www.cs.toronto.edu/~toni/Papers/icml-final.pdf
2013
group fairnessとindividual fairnessとaccuracyのバランスを考えた損失関数を定義することで、公平かつ精度の高い表現を学習する。
Lz=(Demographic Parityの差), Lx=(入力xと再構成x^の2乗誤差), Ly=(softmax cross entropy)として、L = AzLz+AyLy+Ax*Lx
German credit, Adult, Heritage HealthPrize milestone 1 challengeで実験した。
Fairness黎明期の論文なので理論が非常にシンプル。

The Cost of Fairness in Binary Classification

二値分類におけるFiarnessのコスト関数

http://proceedings.mlr.press/v81/menon18a/menon18a.pdf
2018
DIとMDという2つの指標を使わず、CSだけで評価できることを証明し、CSのために最適なclassifierはinstance-dependent thresholding of the class-probability functionであることを示し、後なんか定量化した。
二値分類のfairnessのコスト関数に関する記述が割とわかりやすくてよかった。

Transfer of Machine Learning Fairness across Domains

ドメイン間における機械学習fairnessの転移

https://arxiv.org/abs/1906.09688
2019/06/26
Fairness×Domain Adaptationの論文。異なるセンシティブ属性に関して生じるドメイン差を近づけるというタスク。論文内ではGender→raceというtransferを行なっている。
Task head, Fair head, Transfer headの三つのヘッドが同じreporesentationからそれぞれ最適化したいタスク、sensitive属性の値の回帰、domainの分類問題を解く。fair headとtransfer headに関しては負の勾配情報を伝播する。
UCI AdultとCOMPASで実験。ablation studyでもtransfer headの有用性を示した。
とにかくタスクが軽い。複数センシティブ属性やセンシティブ属性の連続化や異なるデータセットなど、まだまだ拡張するべき。

Data Decision and Theoretical Implications when Adversarially Learning Fair Representations

公平な表現を敵対的に学習する時のデータ決定と理論的意味

FAT2017
https://arxiv.org/pdf/1707.00075.pdf
2017/07/07
adversarial trainingのためにどのようにデータを選択するかがsensitive attributeに影響するかどうかについて研究した論文.
adversarial trainingのために必要なデータ数はそんなにいらないよ. という結果.

Learning Adversarially Fair and Transferable Representations

公平の敵対的学習と転移可能な表現

https://arxiv.org/pdf/1802.06309.pdf
2018/10/22
OneNetとほとんど同じ事言ってる論文。Transfer of Machine Learning Fairness across Domainsが引用している。

Certifying and removing disparate impact

disparate impactの認証と削除

https://arxiv.org/abs/1412.3756
2014/12/11
DIをbalanced accuracyと繋げた. 他の属性からsensitive 属性をどれだけ予想できるかに基づいたDIのためのテストを提案した. バイアスのmethodを示した. 提案したテストの有効性を保証する説明もした.
protected attributeが予測されないようにinput dataにおけるprotected group間の分布を近づける. 編集後の分布が複数のprotected groupの間になるようにする.
One-Netの比較手法として使われている. AIF360のpreprocessにある手法. kamishimaさんのスライドにも載ってる.

Using Image Fairness Representations in Diversity-Based Re-ranking for Recommendations

レコメンデーションのための多様性ベースのre-rankingにおいてfairな表現の画像を使用する

https://arxiv.org/pdf/1809.03577.pdf
2018/09/10
fairness-awareなre-ranking method, MMR(Maximal Marginal Relevance)を提案. post-processに分類される.
できるだけ, 多様性をキープしながら, query iに類似している画像をレコメンドするように, rel(i)とsim(i)を凸結合したものを最大化するだけ. 拡張としてFairnessMRRも提案されている. individual fairnessを考慮している.
最適化しているので当たり前だが, relとsimとfairをいい感じに達成している.
Brust?という画像を用いている. 画像系のfairはかなりめずらしい. 評価を人間が行ってるのが微妙？

Decision Theory for Discrimination-aware Classification

差別を考慮に入れた分類のための決定理論

https://mine.kaust.edu.sa/Documents/papers/ICDM_2012.pdf
2012
差別を軽減するためにROC(Refect Option based Classification)とDAE(Discrimination-Aware Ensemble)
ROC: 出力値が0.5付近のinstanceをdeprived groupなら+に, favored groupなら-に割り当て直す. DAE: ROCでは事後分布を出力するmodelしかできない. DAEはアンサンブル学種において全てのmodelが同じ値を出すかどうかでuncertainかどうかを決定する.
AIF360のpost-processにある手法. ものすごく愚直な後処理をするだけ.

Classification with Fairness Constraints: A Meta-Algorithm with Probable Guarantees

fairness制約付き分類: 保証可能メタアルゴリズム

https://arxiv.org/abs/1806.06055
2019/01/15
fairnessの指標を入力として, classifierを出力とするメタアルゴリズムを提案. non-convexな問題をlinear constrained optimization問題に緩和させる. (解釈可能にしている?)
AIF360のin-processにある手法.

Learning Controllable Fair Representations

コントロール可能なfair表現の学習

https://arxiv.org/abs/1812.04218
2018/02/26
VAEベースのfairなrepresentationの学習. fairness制約を満たす中でrepresentationの表現力の最大化. 表現をzとすると, transferable(様々なタスクにxの代わりに使える)でfairなzを学習する.
ちょっと読み飛ばしたけど, あとでしっかり読みたい.

On the Legal Comparability of Fairness Definitions

公平性の定義の法的互換性について

https://arxiv.org/abs/1912.00761
2019/11/25
fairnessの手法が法的に問題ないのか検討している.

Recovering from Biased Data: Can Fairness Constraints Improve Accuracy?

バイアスデータからのリカバー: fairness制約は精度を向上させられるか?

https://arxiv.org/abs/1912.01094
2019/12/02
EOを最適化するとベイズ的な意味でモデルの精度が良くなる.

終わりに

この一年間はとにかく論文を読みまくりました。僕は電車通学に行きと帰りで4時間以上かかるので、その時間のほとんどを論文読みに費やしました。この一年間で得られた知見はとてもとても大切で、愛おしいものばかりです。最近は2ヶ月前ほどから自分のアイディアを固め、実装し、検証していっているところですが、そのアイディアもここまで論文を大量かつ綿密に読まなければ出てこなかったかと思います。論文を読むことは非常に楽しいことですので、皆さんも是非是非たくさん読んでみてください。そこで見えてくる最先端の世界は自分の世界をより一層大きくしてくれるかもしれません。

最後まで読んでいただきありがとうございました！

自己紹介

冒頭に書くと邪魔になるので最後にひっそりと自己紹介させてください。

名前	綿岡晃輝
学校	神戸大学大学院
分野	機械学習, 深層学習, 音声処理, 公平性
Twitter	@Wataoka_Koki

Twitterフォローしてね！

612

653

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up