#概要
論文メモシリーズの第2弾です。
今回読んだのは、Video Super-Resolution via Deep Draft-Ensemble Learning (2015)という論文で、動画像超解像処理に初めてDeep Learningを用いた手法です。
どちらかというと位置合わせ処理による超解像に近いような気はしますが、この位置合わせをDeep Learningで行ってる、みたいなイメージだと捉えやすい気がします。
それで、動画像にも適応させてみたらいい結果が出た、の方が近いかなぁと思います。(完全に自分の解釈ですが...)
ちなみにですが、後日このモデルを参考にして作成したプログラムの記事も書きます。
(SR Draftあたりは端折ったり色々変えているので参考になるかは不明ですが...)
実装してみた記事はこちら → 超解像手法/DeepSRを参考にした実装
#目次
- 研究の出発点
- 高解像度化の流れ
- SR Draftの生成
- モデルの概要
- 結果
- 知見、貢献
- 参考文献
#1. 研究の出発点
・既存の超解像手法では、自然現象のような現実世界特有のシーンの超解像ができない。
・Deep Learningを用いた動画像超解像手法が存在しない。
(2021年現在では多数存在しているが、この論文がでた2015年はまだ存在していなかった。)
・SR Draft(SR画像の候補)とCNNを合わせることで高精度画像を出力できるのでは?という著者の考え。
(SR:Super-Resolution, 超解像のこと)
#2. 高解像度化の流れ
SR DraftとDeep Learningの組み合わせで高解像度化を行っている。
それぞれで新しいアルゴリズムを論文では提案しています。
##(1) SR Draftの生成
高解像度画像の候補をいくつか生成します。
詳細は論文に書いているので省略します。(Deep Learningに注目して本記事を書いているため)
##(2) モデルの概要
モデルの概要図は以下の図です。(論文から引用)
入力枚数をN枚とすると、N-1枚がSR Draftで残りの1枚がBicubic法にて拡大した画像です。
出力は1枚の画像になります。
全部で4つの層から成り立っており、
最初の3層がConvolution層で、最後の1層がDeconvolution層です。
Convlution層では、入力したN枚の画像の位置合わせ処理を主に行っており、
Deconvolution層は、ノイズなどのVisual artifact(視覚的な異常?)を取り除く目的で使用されています。
#3. 結果
結果は、論文にもあるように既存手法より精細な画像を得ることができます。
結果例は以下の通りです。(論文から引用)
左から、Bicubic法、bayesianSR, 本手法, 元画像となっています。
PSNRなどの画像評価手法による比較も論文では記載されいますので是非。
#4. 知見、貢献
・本手法は、精細な画像を得られる超解像手法である。
・実際に撮影された動画像でも精細な画像を得られたことから、動画像緒解像手法としても有効である。
・Deep Learningを用いた初めての動画像超解像手法である。
#5. 参考文献
・矢谷流論文の読み方
本記事の流れを書くために使用。
・Video Super-Resolution via Deep Draft-Ensemble Learning
今回紹介した論文。
・Qiita記事作成方法 初心者の備忘録
まだMarkDown記法になれていないので使用。