8
11

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

超解像化(ESRGAN)と物体検出(DETR)を組み合わせたハイビジョン物体検出

Posted at

はじめに

物体検出の最新モデルであるDETRとGANを用いた超解像化のESRGANの二つを組み合わせて、物体検出を行います。

以下、オリジナルの動画です。

origin.gif

レポジトリはこちらです。

動画について

youtube8mの動画を再編集して使用しています。

引用している動画

動画のライセンス

以下のライセンスに従っています。

物体検出(DETR)1

DETR(End-to-End Object Detection with Transformers)は、Transformerを使った初めての物体検出です。

以下の図のように、transformerを使わなかった場合は、複雑な機能付けを必要としていましたが、transformerを使ったことで極めてシンプルかつ、「End-to-End」構造を持ち、DETRに画像を入力だけで、物体検出が行えます。

Screen Shot 2021-12-06 at 17.25.40.png

引用: End-to-end object detection with Transformers

DETRのアーキテクチャ

Screen Shot 2021-12-06 at 10.35.48.png

物体検出の流れは以下の通りです。
①backbone層
CNNで畳み込みを行い特徴量を次元dに圧縮する。

②encoder層
backbone層に位置情報(positional encoding)を付与し、transformer encoderでエンコードしdecoder層に渡す。

③decoder層
encoder層と(学習パラメータ:object queries)(N個)が入力、N個の特徴量が出力

④prediction heads層
FNN(全結合層)により、物体の位置座標とクラスをデコードする。N個のオブジェクト推論(class,box)が出力される。

encoder層とdecoder層のtransformerの図に関して下記のようになります。

Screen Shot 2021-12-06 at 16.41.54.png

実装と結果

実装は以下のファイルにあります。

結果は以下の通りです。

detr.gif

実装に当たりチュートリアルを参考にしました。

超解像度(ESRGAN)2

ESRGANは、超解像度の基本モデルであるSRResNetをブラシュアップモデル。

SRResNet/SRGANの基本アーキテクチャ

Screen Shot 2021-12-06 at 14.02.38.png

SRResNetからESRGAN変更点は以下の通りです。

バッチ正規化(BatchNormalization層)が削除

一般的なResidualNetwork(AlphaZeroモデルを参考)

alphago_arch.png

引用: AlphaZero Explained

一般的なResidualNetworkでは、畳み込み層→バッチ正規化→活性化を行います。ESRGANでは、畳み込み層→活性化→畳み込み層に変更しました。バッチ正規化を削除することで、計算の簡略化に成功しパフォーマンスが向上したからです。

Screen Shot 2021-12-06 at 14.02.22.png

Residual Block を Residual in Residual Dense Block(RRDB)に変更

一般的なResidualNetworkのようにインプット層をブロックの最後に他の層と足し算するのではなく、結合することで、ネットワーク自体を深くすることに変更しました(Residual in Residual Dense Block)。

実装と結果

実装は以下のファイルにあります。

結果は以下の通りです。

detr_esrgan.gif

コーディングにあたりチュートリアルを参考にしました。

ライセンスの使用はAPACHE LICENSE, VERSION 2.0に準拠しています。

  1. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. End-to-End Object Detection with Transformers. ArXiv, abs/2005.12872. 2020.

  2. Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu, Chao Dong, Chen Change Loy, Yu Qiao, Xiaoou Tang. ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks. ArXiv, abs/1809.00219. 2018.

8
11
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
11

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?