はじめに
物体検出の最新モデルであるDETRとGANを用いた超解像化のESRGANの二つを組み合わせて、物体検出を行います。
以下、オリジナルの動画です。
レポジトリはこちらです。
動画について
youtube8mの動画を再編集して使用しています。
引用している動画
動画のライセンス
以下のライセンスに従っています。
物体検出(DETR)1
DETR(End-to-End Object Detection with Transformers)は、Transformerを使った初めての物体検出です。
以下の図のように、transformerを使わなかった場合は、複雑な機能付けを必要としていましたが、transformerを使ったことで極めてシンプルかつ、「End-to-End」構造を持ち、DETRに画像を入力だけで、物体検出が行えます。
引用: End-to-end object detection with Transformers
DETRのアーキテクチャ
物体検出の流れは以下の通りです。
①backbone層
CNNで畳み込みを行い特徴量を次元dに圧縮する。
②encoder層
backbone層に位置情報(positional encoding)を付与し、transformer encoderでエンコードしdecoder層に渡す。
③decoder層
encoder層と(学習パラメータ:object queries)(N個)が入力、N個の特徴量が出力
④prediction heads層
FNN(全結合層)により、物体の位置座標とクラスをデコードする。N個のオブジェクト推論(class,box)が出力される。
encoder層とdecoder層のtransformerの図に関して下記のようになります。
実装と結果
実装は以下のファイルにあります。
結果は以下の通りです。
実装に当たりチュートリアルを参考にしました。
超解像度(ESRGAN)2
ESRGANは、超解像度の基本モデルであるSRResNetをブラシュアップモデル。
SRResNet/SRGANの基本アーキテクチャ
SRResNetからESRGAN変更点は以下の通りです。
バッチ正規化(BatchNormalization層)が削除
一般的なResidualNetwork(AlphaZeroモデルを参考)
一般的なResidualNetworkでは、畳み込み層→バッチ正規化→活性化を行います。ESRGANでは、畳み込み層→活性化→畳み込み層に変更しました。バッチ正規化を削除することで、計算の簡略化に成功しパフォーマンスが向上したからです。
Residual Block を Residual in Residual Dense Block(RRDB)に変更
一般的なResidualNetworkのようにインプット層をブロックの最後に他の層と足し算するのではなく、結合することで、ネットワーク自体を深くすることに変更しました(Residual in Residual Dense Block)。
実装と結果
実装は以下のファイルにあります。
結果は以下の通りです。
コーディングにあたりチュートリアルを参考にしました。
ライセンスの使用はAPACHE LICENSE, VERSION 2.0に準拠しています。
-
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. End-to-End Object Detection with Transformers. ArXiv, abs/2005.12872. 2020. ↩
-
Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu, Chao Dong, Chen Change Loy, Yu Qiao, Xiaoou Tang. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks. ArXiv, abs/1809.00219. 2018. ↩