0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Feed-Forward Networkの仕組み

Posted at

1.まえがき

- こちらは以下のFeed-Forward Networkの解説をするための記事です。

- まずFeed-Forward Networkとは前のMulti-Head Attentionにて得た表現を本当に必要な表現だけにして、そこから知識として関連する表現に繋げる機構です。
- これにより、いろいろ混ざってしまった表現から、重要な表現だけを通して、不要なのは遮断させ、後は関わる表現に繋げる事で、次の層に崩れないように整えて、知識として表現を渡します。

2.構造

以下に構造をお見せします。

3.理論

- これは何をしているのかと言うと、upで表現を広げるのと細かく分けて、gateで必要な所の大きさを教えます。
- actで互いの場所のその大きさの分掛ける事で必要な情報だけを大きくします。
- 大きさを変える事によって、必要な表現だけにする事が出来て、次のdownによって表現を縮小させ元のサイズに戻して、知識として繋げてあげて、整えられた情報を次の層に渡してあげることが可能になります。
- これが無ければ、いろいろと混ざってある、まとめられてない情報が渡され、うまく理解や学習が出来なくなります。
- 次の層に綺麗に整えられた情報を渡す事で理解が繋がり、他の層へと続けて推論が可能となります。

4.まとめ

- これによって必要な表現だけにして、不要な所はサイズを小さく変えるのと、関連する知識として繋げて、表現を整えて次の層に繋げてあげます。
- これは他の所にも活用が出来て、LLMの専門家として選択をするMoEと似ています。
- この機構を他の所にも活用を広めれば、より表現を洗礼化させて、精度向上や処理の効率化までも可能になります。
- 以上解説を終わります、分かりづらい所もあったかと思いますが、質問や疑問点があれば、お聞きして下さい、ありがとうございました。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?