はじめに
- どんなモデルがあるのか調査がてら、読んでいきます
要約
- 17の画像キャプション生成CNNモデルを比較した
- ネットワークの複雑さやオブジェクト認識性能とは、必ずしも相関しなかった
提案手法
- ないのかと思ってたけど、あった
- ちょびっと
実験
概要
- CNN+LSTM, CNN+LSTM+Attention なモデルを調査
- Squeezenet [31], Shufflenet
[32], Mobilenet [33], MnasNet [34], ResNet [13], GoogLeNet
[29], DenseNet [15], Inceptionv4 [24], AlexNet [22], DPN
(Dual Path Network) [36], ResNext [37], SeNet [39], PolyNet
[40], WideResNet [38], VGG [14], NASNetLarge [35] and
InceptionResNetv2 を対象 - Flickr8k データセットで評価
- BLEU, METEOR, CIDER, ROUGE-L and SPICEで評価
指標 | 概要 |
---|---|
BLEU | n-gram含有率を算出(40以上で高品質といえる) |
METEOR | BLEUの補完的な存在。unigram系。人手評価との相関が高め |
CIDER | キャプション生成でよく利用される。n-gram含有率 |
ROUGE-L | n-gram含有率 |
SPICE | キャプション生成でよく利用される。グラフ系 |
結果
- パラメータが小さくても勝つ時は勝つ(DenseNet121 and VGG-11)
- どのメソッドも、理にかなったキャプションを生成できている。バリエーションがあるようだ
- 全体的に言えるのは、性別の認識ミスがある
- これは、データの偏りによるものだと考えられる
- 例えば、サッカーをしている人は男性が多い -> 女性がサッカーをしていても、キャプションでは男性と言ってしまう的なこと
まとめ
- ResNet[13] and DenseNet[15]がキャプション生成には適していると思う