#本記事の概要
動画像における超解像の調査論文である、
Video Super Resolution Based on Deep Learning: A comprehensive survey(2020 July)
を軽ーく読んだのでそのまとめをします。
(自分があとで見返せるようなメモです...)
まとめ方は、この記事を参考にしています。
https://iis-lab.org/misc/paperreading/
#1.研究の出発点
・単一画像超解像におけ調査論文はあるが、動画像超解像に対する論文は存在しない。
・動画像における深層学習を用いた超解像手法の技術が年々増えてきている。
・同じ深層学習でも複数のアプローチがあり混同しやすい。
・各モデルのパフォーマンスが一眼でわからない。
#2.研究手法
・今までに提案された深層学習の超解像手法の概要の解説と実装。
→調査方法は、過去に提案された論文を読み、提供されているコードや実装からパフォーマンスを測定し比較。
#3.結果と知見
・各モデルにおいて動き補償のプロセスや超解像プロセスに大きな違いがあるということ。
・動画像超解像の現在位置(研究の意義や今後の課題)が明らかになった.
#4.貢献
著者は、深層学習を用いた動画像超解像分野の研究がまばらに行われており、分野としてまとまっていないという課題から、調査を行い、1つの論文としてまとめた。
#5.キーワード
・Video super resolution
・Motion Competition
・Optical Flow
・Low Images
#6.課題
###・動画像超解像は大規模なので、現実世界への課題に対してアプローチがしにくい。
→大量のパラメータ、計算量、保存領域、学習時間など、規模が大きい。
→携帯のような日常的に用いるデバイスへの応用がきかない。
→小規模で高いパフォーマンスを出すことが必要である。
###・モデルの説明力不足
→深層学習はブラックボックス化されており、モデルの学習経路やパフォーマンスの良し悪しが不明瞭。
→畳み込み演算によって高解像度化がされるが、理論的な説明が不可能
→理論の確立や調査が必要
###・高倍率拡大
→現状では、8倍や16倍のような高倍率の拡大は難しい。
→倍率が上がるほど、予測や情報の保存が難しくなる。
→今後普及するであろう4K, 8K, 16Kなどに向けて、高倍率の超解像は重要な課題である。
###・低解像度生成プロセスの不確実さ
→現状、Bicubic法やガウシアンフィルタなどによるぼかしが低解像度生成方法である。
→現実世界に起こる現象や、実際の映像は非常に複雑な構造(シーン)で構成されており、単純な縮小やぼかしでは再現できない。
→現実世界や映像の現象を明らかにし、低解像度生成プロセスとのギャップを減らす必要がある。
###・教師あり学習によるデータの問題
→提案されている超解像手法は全て教師あり学習であり、LR/HRのセットデータが大量に必要である。
→動画像のデータセットは種類が少ない上に高価である。
→更に、現実世界の多数のシーンの全てに対応できるわけではなく、データを増やしても正確な結果を出せるとは言えない。
###・動画像のシーンによって結果が左右される。
→動画像のシーン(例;スポーツ、ドラマ)によって結果が左右される。
→実世界には多数のシーンが存在する。
→シーンごとに映像やデータセットを分割することは現実的ではない。
→どんなシーンにも対応したモデルを生成することが必要である。
###・評価手法の問題
→現状、PSNRやSSIMが使用されているが、人間に知覚とのズレがある。
(これらの評価値が高いからといって人間が綺麗と感じるかは別問題であるということ。)
→人間の知覚に沿った指標が必要。
###・フレーム間情報の活用
→計算量が莫大なので、動き補償などのフレーム間情報の推定が不正確である可能性がある。
→より高価的なフレーム間予測の手法が必要。
#7.関連研究
・動画像超解像手法の各論文など