概要
以下のDeepMind(Google)のPerceiver、
Jaegle, A., Gimeno, F., Brock, A., Zisserman, A., Vinyals, O., & Carreira, J. (2021). Perceiver: General perception with iterative attention. arXiv preprint arXiv:2103.03206.
Perceiver: General Perception with Iterative Attention
https://arxiv.org/abs/2103.03206
に関して、気になることをメモする。
気になること
Discussionの記載内容
下記の引用において、『モダリティ固有の事前知識の量を減らしています』とあるが、無理に減らすとか、減ることを常に良いことだと考えると、、、、可笑しなことになる気がする。
(音と映像と言語と、違っていいじゃない。映像と言語の共通性は、おのずと、全体からすると、狭い範囲になることのほうが正しい?と思う。)
Discussionの記載内容は、引用すると以下。
私たちは、10万以上の入力に対応するTransformerベースのモデルであるPerceiverを発表しました。これにより、入力に関する仮定が少なく、任意のセンサー構成を扱うことができ、あらゆるレベルの情報の融合を可能にする一般的な知覚アーキテクチャのための新たな道が開かれます。大きな柔軟性には大きなオーバーフィッティングがつきものですが、私たちの設計上の決定の多くはこの問題を軽減するために行われました。将来的には、非常に大規模なデータを用いて画像分類モデルを事前に学習させたいと考えています(Dosovitskiy et al.2021)。大規模なAudioSetデータセットでは、170万件の例があり、Perceiverは、オーディオ、ビデオ、およびその両方の組み合わせにおいて、強力な最新のエントリーと競合する結果を得ました。ImageNetでは、このモデルはResNet-50やViTと同等の性能を示しました。本論文で検討したすべての異なるモダリティとその組み合わせでこれらのモデルを比較すると、全体的にPerceiverが最も優れています。モデルに含まれるモダリティ固有の事前知識の量を減らしていますが、モダリティ固有の補強と位置のエンコーディングは引き続き採用しています。エンド・ツー・エンドのモダリティにとらわれない学習は、依然として興味深い研究の方向性です。
github他での実装サンプルの公開
具体的なトレーニングや、推論が実行できるような、実装サンプル等が、githubとかに、広く出回るようになれば、盛り上がる気がする!!!
図3の説明
この説明は、さすがに、おかしいと思う。
(↑↑↑ 誰か、賛同して欲しいな。。。)
フーリエしているだけなので、元の画が残っているだけだとおもう。
犬の左前脚とか、全然、追えてないし。
以下、引用。
視覚化されたアテンションマップは、入力画像に重ねて表示されているわけではありません。見かけ上の画像構造は、アテンションマップ自体に存在しています(最初のモジュールのアテンションマップのいくつかには、犬がはっきりと見えています)。
まとめ
特になし。
関連記事(本人)
深層学習。DeepMind(Google)のPerceiver(2021.06.23)は面白そう。ただ、もう難しいですね。