Go to Qiita Advent Calendar Top

0

@yustudio_jp(yu studio_jp)

Feed-Forward Networkの仕組み

Posted at 2025-12-09

1.まえがき

- こちらは以下の`Feed-Forward Network`の解説をするための記事です。

- まず`Feed-Forward Network`とは前の`Multi-Head Attention`にて得た表現を本当に必要な表現だけにして、そこから知識として関連する表現に繋げる機構です。
- これにより、いろいろ混ざってしまった表現から、重要な表現だけを通して、不要なのは遮断させ、後は関わる表現に繋げる事で、次の層に崩れないように整えて、知識として表現を渡します。

2.構造

以下に構造をお見せします。

3.理論

- これは何をしているのかと言うと、`up`で表現を広げるのと細かく分けて、`gate`で必要な所の大きさを教えます。
- `act`で互いの場所のその大きさの分掛ける事で必要な情報だけを大きくします。
- 大きさを変える事によって、必要な表現だけにする事が出来て、次の`down`によって表現を縮小させ元のサイズに戻して、知識として繋げてあげて、整えられた情報を次の層に渡してあげることが可能になります。
- これが無ければ、いろいろと混ざってある、まとめられてない情報が渡され、うまく理解や学習が出来なくなります。
- 次の層に綺麗に整えられた情報を渡す事で理解が繋がり、他の層へと続けて推論が可能となります。

4.まとめ

- これによって必要な表現だけにして、不要な所はサイズを小さく変えるのと、関連する知識として繋げて、表現を整えて次の層に繋げてあげます。
- これは他の所にも活用が出来て、`LLM`の専門家として選択をする`MoE`と似ています。
- この機構を他の所にも活用を広めれば、より表現を洗礼化させて、精度向上や処理の効率化までも可能になります。
- 以上解説を終わります、分かりづらい所もあったかと思いますが、質問や疑問点があれば、お聞きして下さい、ありがとうございました。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0