概要
「ViT(Vision Transformer)」時代には、「CNN」時代のような、攻めた途中処理状態の解説の図は出てこないのか?
タイトルの通りのことを感じました。
CNN時代の攻めた途中処理状態の解説の図
CNN時代には、攻めた解説の図をよく見かけた!
(むしろ、攻めすぎ。。。。という記事を書いた。)
(出典:http://vision03.csail.mit.edu/cnn_art/index.html#v_single )
出典:AlexNet を使用した Deep Dream イメージ
(https://jp.mathworks.com/help/deeplearning/examples/deep-dream-images-using-alexnet.html)
まとめ
特にありませんが、
ViT(Vision Transformer)の弱点として、CNNに比べて、少し、複雑であることが挙げられるような気がしました。
CNNの反撃もあるかも。。。。
コメントなどあれば、なんなり、お願いします。
関連(本人)
畳み込みニューラルネットワーク(CNN)の説明が煽りすぎでは?(1層目ぐらいしか成功していないのでは?)
畳み込みニューラルネットワーク(CNN)の説明が、頑張りすぎでは?(MathWorksのdeepDreamImageとかも)