Go to Qiita Advent Calendar Top

0

@yustudio_jp(yu studio_jp)

Multi-Head Attentionの仕組み

Posted at 2025-12-09

1.まえがき

- こちらは以下の`Multi-Head Attention`を解説するための記事です。

- まず`Multi-Head Attention`は`Transformer`の言葉を理解するのに重要な機構です。
これにより様々な言葉同士の組み合わせや表現を理解出来るようになりました。

2.構造

3.理論

- この仕組みを理解するには、想像しがたい所がありますが、なんとなくでも理解出来れば良いと思います。
- 入力は`Tokenizer`での`Token id`に`Linear`を通して各トークン毎の第一段階としての表現を行います。
- このままだとまだ位置が分からないので、`Positional Embedding`を使う事で、言葉同士の距離を使えます。
- 次にこれらは名前の通り`Multi-Head Attention`複数のアテンションを作成します。
- 一つのアテンションとして見て、各層毎に存在している一つの層に`Q`, `K`, `V`の`Linear`にそれぞれ同じ入力を通します。
- `Q`これは関連する表現の質問, `K`これは関連する表現の回答, `V`これは関連する表現の出力です。
- アテンションとして重要な所で`Q`を一つ選択して`K`には他のトークンからの出力を使います、ここに`Matmul`を行い近似度を測ります、ScaleとMaskをしてSoftmaxを行い、使った`K`の所にある`V`と選択した`Q`と一緒に`Matmul`を、行います。
- つまり、各トークンの`Q`毎に他の`K`と`V`の`Matmul`を行い近似度が高い所の表現を入れることで、複数の層を通して少しずつ他のトークンとの繋がりから言葉の理解をしていきます。
- `Masked Multi-Head Attention`と言うのもあり、これは選択した`Q`よりも後を見ないようにして、前だけを見るようにします、次の言葉を予測するように学習させるのと、出せるようにします。
- `Add & Norm`で入力と出力を加算します。
- `Feed-Forward Network`と`Add & Norm`を行い次の層に続きます。
- 最後の所にある、トークンの出力だけを使い、次の言葉を`Linear`と`Softmax`に通して様々な`Token id`の確率を出させます。
- 出たトークンのどれかを上位から選択することで、文字が繋がります、再度入力に入れて最初から行う事で出た文字の次の文字を探します。
- これらを繰り返す事によって自由な文章の生成が可能となります。

●処理の手順例

4.まとめ

- 入力に`Linear`を通して表現を得て、`Positional Embedding`を使う事で、`Q`と`K`の`Matmul`をする時に文章の距離が近ければ、近似値が高くなるようになります。
- 各層の`Attention`にある`QKV`を入れていく事で、トークンの繋がりや言葉の意味を理解します。
- 文章の終わりのトークンが来たら生成を止めます。
- 各層と各トークンを通していく事で言葉の理解を可能となります、次の文字を一つ出していきます。
- また`Q` `K` `V`は何度も行うと処理が大変なので、キャッシュに、出力を残す事で長くなっても直ぐに次の文字を生成する事が可能になっております。
- `Masked Multi-Head Attention`は`LLM`の生成に役立っています。
- 簡単な説明で分かりにくい所もあったと思いますが、疑問点や質問があれば聞いて下さい、ありがとうございました。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0