データサイエンティストならいつの間にか知っているグラム行列【これでAttentionも理解できる】

Last updated at 2025-04-03Posted at 2025-01-15

相関係数（共分散行列）やコサイン類似度の行列などの距離を一般化したようなものがグラム行列である。

グラム行列の定義

簡単な定義

G = \left(
\begin{array}{ccccc}
v_{1} * v_{1} & \cdots & v_{n} * v_{1} \\
\vdots & \ddots & \vdots  \\
v_{1} * v_{n} & \cdots & v_{n} * v_{n} 
\end{array}
\right)

$v$は数ベクトルを示す。
$v * v$は内積を示す。
つまり、グラム行列全体は内積で構成された行列となる。

グラム行列を分解すると

またグラム行列は以下のように分解できる。


A = \left(
\begin{array} 
(v_1 \\ 
v_2 \\ 
\cdots \\
v_n 
\end{array}
\right)とするとき

G = A  A^T

$A$は数ベクトル$v$が複数集まって構成された行列である。別の言い方をすると$A$は数ベクトルをカラムと見立てた時のデータセットである。
データセットとデータセットの転置したものを掛け算したものがグラム行列となる。

内積について

ここで内積について復習する。

\displaylines{
a = (a_1, a_2) \\
b = (b_1, b_2) \\
とベクトルaとbを定義する
}

この時

a_1 \times b_1 + a_2 \times b_2 = a * b(=内積)

つまり数ベクトルの各要素を掛け合い、それを合算したものが内積である。

また内積は次のようにも表現できる。

a * b = |a|\times|b|\times cos(\theta)

この時、

\displaylines{
|a|=\sqrt{a_1^2 + a_2^2} \\
でありこれは数ベクトルの大きさを示す。
}

つまり、内積とはみんな大好きコサイン類似度に定数を掛けたものであり、別の言い方をするとベクトル同士の関連度合いを内包している。

最後にグラム行列に戻ると、各要素はカラム(数ベクトル)同士の内積で表現されており、全カラムの組み合わせを網羅している。そして、それはとても簡単に計算できる。具体的はデータセットとそれ自身を転置したものを掛け算するだけである。そうすると各カラム同士の関係性を一気に取得できる

グラム行列と分散共分散行列

共分散について確認する。

Cov(v_i, v_j) = E[v_i * v_j] - \mu_i \mu_j

この時、各変数$v_{n}$を各平均$\mu_n$で引き算し、センタリングする。

すると$\mu_n=0$となるため、上記の右辺の第２項がなくなります。期待値の式を定義通りに解体すると

Cov(v_i, v_j) = E[v_i * v_j] = \frac{1}{N}\sum_{r=1}^N v_{ir} \times v_{jr}

$\sum$部分の計算はベクトルの内積の計算式と同じになるので

Cov(v_i, v_j) = \frac{1}{N}v_i * v_r

となる。

データセットの各カラムでセンタリングし、データセットを転置したもの自身と掛け算した後、サンプル数で割り算すると

\frac{1}{N}A * A^T = \frac{1}{N}G

となる。

分散共分散行列と相関行列はほとんど似ているから相関行列とグラム行列の関係は省略するで

グラム行列とコサイン類似度

内積は以下のように展開できます

v_i * v_j = |v_i| \times |v_j| \times cos(\theta)

従って、各$v_n$の$|v_n|$を計算し（L2ノルムを計算することと同義）、あらかじめ割ったもの同士の内積を計算するとコサイン類似度が計算できます。

\displaylines{
Z = \frac{A}{|A|} \\
C = ZZ^T
}

この時$|A|$は各ベクトルのノルムを格納したベクトル

Attention

Transfomerの内部の機構の1つであるAttentionもグラム行列で説明することができます。

Attentionの式は以下になります。

softmax(\frac{QK^T}{s})V

AttentionはKeyとQuery、Valueで構成されますが、これらは要するに何らかの値が入った行列です。sはスケーリングするための定数です。

AttentionはSelf-AttentionとCross-Attentionの２種類があります。
まずSelf-Attenionについて説明します。

Self-Attention

Self-AttentionではKはQの行列を転置したもの、VはQの値そのものです。
従って、Self-Attentionは以下の式のように書き換えられます。

softmax(\frac{QQ^T}{s})Q

ここでグラム行列$QQ^T$がありますね。つまり、Self-Attentionでは自らの値との類似度を計算していることになります。自身との類似度計算後、Softmax関数により正規化し、同じ行列$Q$を掛けることで、自身のどの部分の値を強調するのかを計算していることになります。

Cross-Attention

StableDiffusionではQは画像情報、KとVはテキスト情報などの条件付けの情報となります。
従って、$QとK^T$の掛け算では画像と条件付けの類似度のようなものを計算し、VにSoftmax関数で正規化した値を掛けることで、条件付けと画像情報がしっかりと関連した画像が生成されるという仕組みになります。

参考文献

グラム行列の定義と性質について；

相関行列の定義と分散共分散行列との関係：

統計学や機械学習で使われる分散共分散行列、相関行列とグラム行列の関係：

AIアートの新時代（著：koshian2）：

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up