More than 1 year has passed since last update.

Learned Image Compression With Mixed Transformer-CNN Architectures

Posted at 2023-07-05

1. 概要

学習ベースの画像圧縮(Learned Image Compression:LIC)では、従来の画像圧縮手法と比べて、画像の圧縮率と圧縮による画質の損失のトレードオフの関係が改善されており、畳み込みニューラルネットワーク(CNN)を用いたものとトランスフォーマーを用いたものが提案されている。一般的に、CNNを使う場合は局所的な情報集約能力に優れており、トランスフォーマーを使う場合は大局的な相関関係の抽出能力に優れている。この研究では、CNNとトランスフォーマーのそれぞれのよいところを組み合わせた手法となっている。

2. 新規性

CNNの局所的なモデリング能力とトランスフォーマーの非局所的なモデリング能力を組み合わせたTCM(Transformer-CNN Mixture Blocks)を提案している。また、画像データの統計的な特性を学習してエントロピー(情報量)を推定するエントロピーモデルをアテンションとして組み込むSWAttenモジュールを提案している。

3. 実現方法

TCMブロックでは、1x1の畳み込み層を二つ持っており、トランスフォーマーとCNNのそれぞれの特徴を取得する部分と特徴をマージする部分で用いられている。2ステージ系の方がより特徴をマージしやすいとしている。

エントロピーモデルについては、チャネル単位の自己回帰モデルを採用しており、Swin-transformerをベースにしたアテンションモジュールとなっており、チャネル情報を圧縮してパラメータ削減を図っている。

4. 結果

Kodak/Tecnick/CLIP Professional Validationの3つの解像度の異なるデータセットにおいて、既存のLIC手法と比較して画像の圧縮率と画質の損失率のパフォーマンスで向上していることを確認した。

Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Liu_Learned_Image_Compression_With_Mixed_Transformer-CNN_Architectures_CVPR_2023_paper.pdf

last updates: June 30 2023

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up