トランスフォーマー
ChatGPTのTに現れるトランスフォーマーという学習モデルの説明をしたいと思います。
ニューラルネットといえば、入力層から中間層を経て出力層へ出力されていきます。このような一般的なニューラルネットを順伝搬型ニューラルネットといいます。ニューラルネットを思い浮かべたとき最初に出てくるモデルですね。このモデルでは中間層が人によって設計され、データの流れは固定的です。どのように固定的かというと、ユニット間の接続関係は最初に決められたまま変わることなく、入力にかけられる重みも変わらないままです。
トランスフォーマーというモデルが従来の順伝搬型ニューラルネットと異なるのは、先ほど触れたユニット間の接続関係や重みが入力次第で様々に変化していく点にあります。
この特徴によってトランスフォーマーは豊かなネットワークの表現力を発揮し、より優れた能力を実現しています。
トランスフォーマーについて中身を学ぼうとすると最初は理解が大変ですが、「それによってネットワークの表現力が豊かになる」ということを意識すると理解の手がかりになると思います。