0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Comparative evaluation of CNN architectures for Image Caption Generation

Posted at

はじめに

  • どんなモデルがあるのか調査がてら、読んでいきます

要約

  • 17の画像キャプション生成CNNモデルを比較した
  • ネットワークの複雑さやオブジェクト認識性能とは、必ずしも相関しなかった

提案手法

  • ないのかと思ってたけど、あった
  • ちょびっと

実験

概要

  • CNN+LSTM, CNN+LSTM+Attention なモデルを調査
  • Squeezenet [31], Shufflenet
    [32], Mobilenet [33], MnasNet [34], ResNet [13], GoogLeNet
    [29], DenseNet [15], Inceptionv4 [24], AlexNet [22], DPN
    (Dual Path Network) [36], ResNext [37], SeNet [39], PolyNet
    [40], WideResNet [38], VGG [14], NASNetLarge [35] and
    InceptionResNetv2 を対象
  • Flickr8k データセットで評価
  • BLEU, METEOR, CIDER, ROUGE-L and SPICEで評価
指標 概要
BLEU n-gram含有率を算出(40以上で高品質といえる)
METEOR BLEUの補完的な存在。unigram系。人手評価との相関が高め
CIDER キャプション生成でよく利用される。n-gram含有率
ROUGE-L n-gram含有率
SPICE キャプション生成でよく利用される。グラフ系

結果

スクリーンショット 2021-04-03 1.05.51.png

スクリーンショット 2021-04-03 1.06.23.png

  • パラメータが小さくても勝つ時は勝つ(DenseNet121 and VGG-11)
  • どのメソッドも、理にかなったキャプションを生成できている。バリエーションがあるようだ
    • 全体的に言えるのは、性別の認識ミスがある
    • これは、データの偏りによるものだと考えられる
    • 例えば、サッカーをしている人は男性が多い -> 女性がサッカーをしていても、キャプションでは男性と言ってしまう的なこと

スクリーンショット 2021-04-03 1.31.33.png

スクリーンショット 2021-04-03 1.34.02.png

まとめ

  • ResNet[13] and DenseNet[15]がキャプション生成には適していると思う
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?