Help us understand the problem. What is going on with this article?

おまけ:stair captionsを試してみた

More than 1 year has passed since last update.

おまけ

stair captionsでいくつか試して見ました
キャプションの付け方の例として以下のページから検索できるようになっています。
なんとなく3番目の画像のキャプションは日本語としてなんとなく違和感を感じます。いや、間違ってはいないんですが・・・
http://captions.stair.center/explore/
スクリーンショット 2018-07-02 12.52.30.png

早速、試して見ましょう
http://captions.stair.center/demo


ループ系

スクリーンショット 2018-06-28 19.39.47.png
再帰的赤ちゃん
背景に反応したのでしょうか

door.png
マトリョーシカ状態


大量検出系

tai.png
pen.png
複数の物体を見つけると全てにキャプションをつけようとするのか、文章がすごいことになります。
「AがBで、CがDである」というキャプションのルールなのか、三つ以上の物体を判定した時に文章が崩れやすい印象を受けます。

原因として

  • このデータセットでは画像に対し計5個のキャプションをつけている
  • このとき、一つの画像に複数キャプションをつける場合に人間は、画像の一部を切り出して説明しようする。
  • 結果、画像全体を見たキャプションではなく、画像一部を見たときのキャプションで学習することになる。

人間は画像の一部分にもキャプションをつけることができます。
しかし、このモデルでは画像全体を見てしまうようでLSTM側で全ての物体に対して無理やりキャプションしようとした結果、日本語としておかしくなってしまった印象を受けます


二次元系

kasau.png
tubo.png
シワが傘の裏に、光沢が花瓶に見えたのでしょうか?
それにしても、「傘の裏」というキャプションがついた元の画像とは一体。。。


哲学系

スクリーンショット 2018-07-05 20.59.10.png
もはや哲学めいたものを感じます。
「雪だるまの水平線」なんてこの画像からちょっと出てきそうにありません。


見えないものを見ようとして

スクリーンショット 2018-07-03 19.58.50.png
時計らしいことはわかったようです。
他にも時計が写った画像を試してみましたが、正確に当てたものは皆無でした。。。
まぁ、ものによっては傾いたりしますし。。。

スクリーンショット 2018-07-03 20.41.54.png
これに至ってはもはや何が見えたのでしょうか


固有名詞系

wii.png
____________________________2018-06-28_20.45.58.png

本来なら除かれているはずの固有名詞が含まれてしまっているパターンです。
キリストのことをwiiとみなしたり、どこに反応したか分かり兼ねますがオバマという単語が出てきてしまっています。
二枚目のこう判断した気持ちはわかる気がしますが、一切合切を外してくるキャプションにはもはや感動すら覚えます。


正解系

まれにドンピシャだったりするのですが、確率としてかなり低い印象です。
データセットの中に似た構図を持ってくると正解率が上がる印象を受けます。

スクリーンショット 2018-06-28 19.46.47.png
スクリーンショット 2018-07-03 19.20.28.png
裏を返せばここまでの画像は、データセットからかけ離れたものだったということになります。


まとめ

データセットには少ないだろう宇宙の背景や小物だけが写っているデザイン重視の画像、アニメや漫画などの絵に対する精度は低くなったとしても仕方ないと言えます。
とはいえ傘の裏と認識する以上はデータセットに組み込まれいるはずで、なぜそれをデータセットに入れたのかが少し不思議に思いますが・・・
こういうところも含めて、検品作業は大事だなぁと思いましたまる

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away