0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

画像キャプショニングにおいて Grit の仕組みを非自己回帰型に改修して精度を測定しました。

Last updated at Posted at 2024-09-25

測定を行った動機

非自己回帰型の画像キャプショニングについては、提案するTransformer Encoder の出力をダウンサンプリングして、Transformer Decoder の target 入力にし、CTCLoss を計算するという方法

では、精度があがらず、Mask Predict で

精度が上がった。今回は、提案する方法でなんとか精度が上げられないか Grit

に、提案する非自己回帰の手法を適用して精度を測定した。

ハイパーパラメータ

今回の測定は、RTX 6000 GPU 一枚で行ったため、transformer の隠れ次元数は 256 とした。num_heads = 8, num_ffd_dim = 2048 である。

学習

事前学習は、Visual Genome データセットを使った Object Detector の事前学習と Visual Genome データセットを使った Object Detector + Attributes Prediciton の事前学習を行った。これらの事前学習で得られた backbone と Deformable Transformer のパラメータを用いて、Coco データセットで 画像キャプショニングの学習を行った。

測定結果

測定データ
プログラムの特徴 WER BLEU
通常のtransformer 67.0 4.88
Gritを真似た自己回帰型 66.1 5.14
Gritの仕組みを用いた非自己回帰型 68.4 2.36

Grit の仕組みを用いた非自己回帰型では、Region Feature、すなわち Object Detector の特徴量をダウンサンプリングせずに Caption Generator の target 入力として CTCLoss を計算した。非自己回帰型に慣れてない方も読むと思います。非自己回帰型の場合、学習時に causal_mask は要りません。また、model の計算に必要なのは、imgs と masks で、caption は要りません。推論と学習は一つのクラスの中の同じ関数でできます。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?