1. 概要
明るさがほとんどない暗闇の中でRAW画像で写真を撮って映し出された真っ黒な画像から、元のRGBに変換したときの見かけを再構成する研究。従来手法では、単一ネットワークによるシングルステージ系手法や複数ネットワークを多段に使うマルチステージ系手法があったが、ノイズを多く含んだRAW画像から直接RGB画像を推定しようとするので学習が難しく、また複数のネットワークを経由すると詳細情報が失われるという課題があった。この研究では、これらの課題を解決するマルチステージ系の手法を提案している。
2. 新規性
ノイズが多く含まれる低輝度なRAW画像から直接RGBを推定するのではなく、一旦ノイズを除去したRAW画像を予測する。このとき学習されたデノイジング情報をフィードバックさせてエンコーダーからデコーダーに渡される特徴量にノイズなどのエラー情報が含まれるのを防ぐ。
3. 実現方法
まず、RAW画像に対するエンコーダーデコーダーネットワークでRAW画像に含まれるノイズ除去を行い、デコーダーの出力に補助教師(auxiliary suprevision)を導入して学習の収束性の向上やより高品質な出力画像の予測を促す。
次に、RAWデコーダーからフィードバックされる特徴をRAWエンコーダーの特徴に加えて、ノイズ除去された特徴も含めて再度RAWエンコーダーに戻す。
最後に、RGBデコーダーでカラースペースの変換を行って暗闇で撮影した画像からカラー画像を再構成する。
4. 結果
先行研究に対してパラメータ数が約19%と少なく、SIDデータセットのSONYおよびFUJIのカテゴリでPSNRをそれぞれ0.97dBと1.30dB改善している。
last updates: June 24 2023