概要
以下のDeepMind(Google)のPerceiver、
Jaegle, A., Gimeno, F., Brock, A., Zisserman, A., Vinyals, O., & Carreira, J. (2021). Perceiver: General perception with iterative attention. arXiv preprint arXiv:2103.03206.
Perceiver: General Perception with Iterative Attention
https://arxiv.org/abs/2103.03206
に関して、理解するコツを記載する。
理解するコツ1
以下は、論文の図1引用。
このアーキテクチャを含め、理解するコツは、
- 深層学習の場合は、なんでもあり※1 なので、いちいち、個別の意味や作用に関してまじめに考えないこと。
※1 非常に大規模なパラメータと、トレーニングがあるために、基本、なんでもあり。例えば、ある処理は掛け算すべきところを誤って足し算にしても、それは、どうにでもなる場合もある(はず)。
- 「Q]「K」「V」が気になるかもしれないが、、、まあ、適当に考えればいい(はず)。
- Weightsのsharedも、意味があると理解してもいいし、パラメータを減らしているだけと理解してもいい(はず)。
まとめ
特にありません。