0

More than 3 years have passed since last update.

Comparative evaluation of CNN architectures for Image Caption Generation

論文読み

Posted at 2021-04-02

はじめに

どんなモデルがあるのか調査がてら、読んでいきます

要約

17の画像キャプション生成CNNモデルを比較した
ネットワークの複雑さやオブジェクト認識性能とは、必ずしも相関しなかった

提案手法

ないのかと思ってたけど、あった
ちょびっと

実験

概要

CNN+LSTM, CNN+LSTM+Attention なモデルを調査
Squeezenet [31], Shufflenet
[32], Mobilenet [33], MnasNet [34], ResNet [13], GoogLeNet
[29], DenseNet [15], Inceptionv4 [24], AlexNet [22], DPN
(Dual Path Network) [36], ResNext [37], SeNet [39], PolyNet
[40], WideResNet [38], VGG [14], NASNetLarge [35] and
InceptionResNetv2 を対象
Flickr8k データセットで評価
BLEU, METEOR, CIDER, ROUGE-L and SPICEで評価

指標	概要
BLEU	n-gram含有率を算出(40以上で高品質といえる)
METEOR	BLEUの補完的な存在。unigram系。人手評価との相関が高め
CIDER	キャプション生成でよく利用される。n-gram含有率
ROUGE-L	n-gram含有率
SPICE	キャプション生成でよく利用される。グラフ系

結果

パラメータが小さくても勝つ時は勝つ(DenseNet121 and VGG-11)
どのメソッドも、理にかなったキャプションを生成できている。バリエーションがあるようだ
- 全体的に言えるのは、性別の認識ミスがある
- これは、データの偏りによるものだと考えられる
- 例えば、サッカーをしている人は男性が多い -> 女性がサッカーをしていても、キャプションでは男性と言ってしまう的なこと

まとめ

ResNet[13] and DenseNet[15]がキャプション生成には適していると思う

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0