概要
Transformerの理論解析をした論文を読んで研究室輪講で解説しました.そのスライドをTwitterに貼ったのですが,技術者向けのプラットフォームにしっかり置いておいた方が良いと思ったのでこっちにもリンクを貼っておきます.
もう少し丁寧な導入
昨今,Transformerという機械学習アーキテクチャが自然言語処理,画像認識,音声認識・合成など幅広い分野で使われています.例えば,ChatGPTは今では知らない人が居ないと言っていいほど人工に膾炙したツールになりましたが,このChatGPTの"T"はTransformerから取られています(正確にはGPTがGenerative Pretrained Transformerの略).
そんなTransformerがどうして上手く動くのか,気になりませんか?そんなモチベーションのもと,機械学習理論の研究が行われています.ここで紹介した論文はそんな潮流の中の一つとして,Transformerの近似誤差・汎化誤差を解析した論文になります.
フーリエ変換程度の数学的知識があれば読めるように解説したので,是非読んでください.