1. 概要
写真を撮るとカメラは自動でメタデータを画像ファイルにタグ付けして記録する。この研究では、このメタデータを学習してカメラのプロパティ情報を学習できないかと考え、画像パッチとカメラのメタデータ間のマルチモーダルな特徴を学習し、画像の改竄やデジタル編集を検知する画像フォレンジクス(Image Forensics)に応用した。
2. 新規性
カメラの撮影記録が示されたメタデータをテキストとしてトランスフォーマーで特徴抽出し、画像との関連性をマルチモーダルに学習した最初の論文。
3. 実現方法
画像とテキストの特徴をトランスフォーマーを使ってCLIPのように統合していく。ここで、テキスト入力はカメラのメタデータであるEXIFファイルで、カメラのモデルや露光時間、ホワイトバランス、日時などカメラ設定に関わる情報が含まれる。一方、撮影された画像はパッチ単位でトランスフォーマーを使って特徴抽出される。
カメラパラメータとペアで学習された画像パッチの特徴を調べると、抽出された画像パッチの特徴が同じ機種のカメラなどカメラのメタデータに照らし合わせて同様機種での類似度を計算することができる。その中から、類似していないパッチを選ぶと画像が改ざんされた可能性が高い箇所を推定できる。学習済みのCLIPライクな重みだけを使って、ゼロショットで検知することが可能。
4. 結果
人の目で判別することが難しいデジタル編集やいわゆるDeep Fake画像に対して、ゼロショットで加工された箇所を検知できる。
last updates: July 3 2023