はじめに
今回はPerson Re-identificationに関する論文を取り上げて紹介します。
Joint Discriminative and Generative Learning for Perosn Re-identification1
ざっくりどんな論文?
NVIDIAからCVPR2019のOralで発表されました。NVIDIAといえばStyle GAN,Vid2Vid,FUNITなどGANに関する論文を多くだしている印象ですが、今回はPerosn Re-identificationにもGANを利用して、精度をあげたという論文になっています。GANをperson Re-identificationに利用する研究はそれまでにもあったのですが、Generatorで作った画像をうまく利用することが出来ていませんでした。今回は上手く,Generatorがスタンドアローンにならないような仕組みを作ってあげることで、SOTAを達成しました。
Person Reidentificationの難しさと先行研究
Person Reidentificationは図1に示すように同一人物であってもカメラ角度やPoseによるクラス内分散が生じます。したがって画像からいかにそれらを取り除いたid-relatedな情報にembeddingできるかが重要になってきます。
図1 人物写真はMarket1501データセット2より
先行研究ではSiameseやTriplet Lossなどを使い、Deep metric Learningとして定式化した研究が一般的だと思います。参考文献33などがあります。
また図2のようにOpenPoseなどと組み合わせて、intra class分散を上手く捉えようとする研究4もあります。
図2 論文4Figより
さらに近年ではGANによる画像生成を組み合わせることにより、さらにロバスト性を上げようという潮流も存在します。
GANを用いるメリットとしてはGANで生成した画像をfreeなDataAugementationとして利用できることですが、生成した画像からintra class分散をモデルが上手く捉えているかを視覚化できるという嬉しさもあります。
研究の1例としては,GANで生成した画像にidの一様分布ラベルを与えてTrain画像に追加したら精度上がった5というものや、図3のように、Pose-Guideな生成を行いIdentityとPose情報を分離した生成を行うといった研究6があります。
図3 論文Fig6より
図3では入力画像から、idを保持したまま(同一人物でありながら)Poseのみを変えた画像が生成されていますね。これは上手くid Relatedな情報を分離できていることを意味しています。
さて、いずれの研究もGANを用いてロバスト性が上がったという報告がなされていますが、紹介する論文ではこれらのGeneratorがStandaloneに成りがちで上手く利用できていないのではという指摘がされています。
せっかくGeneratorで画像を水増しのようなことをできるのだから、よりDirectにembeddingに役立つように利用できないか?、という課題を持った上で研究の提案手法に移っていきましょう。
提案手法
Person ReidentificationのDiscriminationとGenertorの画像生成を単一ネットワークで扱うことで生成画像を上手く利用できるような仕組みになっています。
詳細に見ていきましょう。
図の緑色のオブジェクト$E_a$はAppearance空間(ここではid-relatedな情報をもつことを意味)へのEncoderになっています。これはimageを与えるとそのPerosn-id $a$を出力します
$a=E_a(x)$
青色のオブジェクト$E_s$は逆にStructure空間(pose,body sizeなどid-relatedではない情報)へのEncoderです
$s=E_s(x)$
そして黄色のオブジェクト$G$はエンコードされた$a$,$s$から画像を生成するGeneratorになっています。
$x=G(a,s)$
これらを組み合わせたネットワークに画像のPositive Pair(同一のid画像)とNegative Pair(異なるidの画像)を入れてLossをとることで、$E_a$,$E_s$,$G$が理想の出力に近くなるよう学習します。
Positive Pairを与えたとき
まず同一のidの画像($x_i,x_t$)をいれたときですが、これはネットワーク図の下側に該当し、見やすいように取り出すと図5になります。
図5
画像をそれぞれ$E_a$,$E_s$でエンコードし、$G$で再構成しますが、再構成された画像は元の画像と一致するはずなので以下のように、再構成損失が計算できます。
また再構成する際にid-relatedな$a$を互いに入れ替えても,pose情報もid情報も変わらないので、これも元の画像と一致するはずです。
さらに$E_a$によるid予測が正しいかというクラス予測損失が計算できます。
Negative Pairを与えたとき
別々のidの画像($x_i$,$x_j$)を与えた時はネットワーク図上側に該当し図6のようになります。
図6
こちらもEncodeして再構成しますが、ここで$a$と$s$のどちらか片方の情報だけを入れ替えて再構成し、再度Encodeすると、入れ替えていない情報は一致するはずです。したがって以下2つのロスが計算できます。
またEncodeしたあと、Structure情報だけを入れ替え、再度idを推定しても予測できるはずなので予測損失が加えられます。
そして、Generatorにはrealな画像を生成してほしいので、おなじみGANのadversarial lossを計算します。
さてパズルのようにLossを計算してきましたが、これだけではなく、Generatorの生成画像を上手く利用できるようにさらに、Primary feature learningと Fine-grained miningという2つの学習の枠組みを提案しています。
Primary feature learning
ここではデータセットの画像ではなく、先ほどのStructure,Appearance情報を入れ替えて生成した画像を使用します。
図7
Generatorで生成した画像でもid予測の訓練を行たいのですが生成された画像には当然ながらidラベルが存在しません。そこでまず、ResNetなどのシンプルなCNNをあらかじめid予測問題で訓練させ、それをTeacher Modelとして使用します。
生成した画像をTeacher Modelと$E_a$それぞれにいれたときに出力したid予測の確率が一致するようにKL-Divergenceを最小化してあげることでラベルなしでの学習を可能にします。
このとき、あくまでargmaxする前の予測確率分布を利用することがpointだとのこと。Dynamic Soft class labelingというらしいですが、Hard labelingより学習が上手くいったそうです。
Fine grained feature mining
さてこの項が論文読んでてややこしかったところです。今まで、Appearance空間へのEncode $E_a$は人物の服装に大きく左右され、同じ色の服装はid-relatedな情報だと扱ってきました。($E_s$に入力する画像はpose情報などに依存するようにグレイスケールに変換して入れています)
しかしながら実際には似たような服装で別人だということもあるわけなので、生成画像を用いて同一人物における服装の違いをシミュレートさせ、この区別に役立つような特徴を探索することを目指します。
図8のGeneratorで生成した青枠の画像pair(今まで別人としてきたpair)を同一人物とみなし、体の大きさ、髪、帽子、カバンといった服装とは独立したID識別に役立つ情報を探索させます。
図8
すると下のようなLossが計算でき、今までのLossとは違うMulti Task学習を課すことによりよりロバストなモデルになるそうです。
損失関数
最終的な損失は今までのやつを全て足し合わせたものになります。
多い...
実験結果
Market 1501での実験結果です。まずは生成画像から。
図9
生成画像の綺麗さ、多様さともに先行研究よりよくなっています。
特筆したいのが,Appearence情報と、Structure情報を分離して画像を生成できていることです。Pose情報を一切与えていないのにも関わらず、lossを工夫することでここまでできるのは驚異的です。
発表当時SOTAを達成しています。(11/6現在 paper with codeによると4位)
Primary feature learningと Fine-grained miningを加えることによりスコアアップが確認できるので生成画像を上手く利用できているということでしょう。
まとめと感想
GeneratorをStandaloneにならずに組み合わせていく様子はすごいです。ただネットワークが複雑で、損失関数7はあまりにも..(実際に使う時は学習済みの$E_a$に入れるだけだからいいということか)
特にFine-grained miningは下手するとnetwarkを混乱させて、精度落ちるだけになりかねないのでloss重みのハイパラも大事そう。
長かったとは思いますが、ここまでお読みいただきありがとうございます。
-
Zheng, Z., Yang, X., Yu, Z., Zheng, L., Yang, Y., & Kautz, J. (2019). Joint Discriminative and Generative Learning for Person Re-identification. Retrieved from http://arxiv.org/abs/1904.07223 ↩
-
Zheng, L., Shen, L., Tian, L., Wang, S., Wang, J., & Tian, Q. (2015). Scalable Person Re-identification : A Benchmark University of Texas at San Antonio. Iccv, 1116–1124. https://doi.org/10.1109/ICCV.2015.133 ↩
-
Hermans, A., Beyer, L., & Leibe, B. (2017). In Defense of the Triplet Loss for Person Re-Identification. Retrieved from http://arxiv.org/abs/1703.07737 ↩
-
Su, C., Li, J., Zhang, S., Xing, J., Gao, W., & Tian, Q. (2017). Pose-driven Deep Convolutional Model for Person Re-identification. Retrieved from http://arxiv.org/abs/1709.08325 ↩ ↩2
-
Zheng, Z., Zheng, L., & Yang, Y. (2017). Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro. Retrieved from http://arxiv.org/abs/1701.07717 ↩
-
Ge, Y., Li, Z., Zhao, H., Yin, G., Yi, S., Wang, X., & Li, H. (2018). FD-GAN: Pose-guided Feature Distilling GAN for Robust Person Re-identification. Retrieved from http://arxiv.org/abs/1810.02936 ↩ ↩2