始めに
社内向け及び勉強会向けに生成AI周りの資料を作成したので、SpeakerDeckに公開するとともに、いくつかのトピックについてはこちらで補足解説していきます。
speakerdeckはPDF形式なので、アニメーションでの表現ができない部分があったのですが、アニメーションをGIF画像にしてイメージし易くしているつもりです。
趣味の範囲で機械学習周りを学んでいるため、説明に誤りがあればご指摘ください。
transformerとは
2017年にGoogleから発表されたモデルであり、Attention機構を最大限に生かしたモデル(Attentionについては後述)
現論文:Attention Is All You Need [Vaswani@Google Brain et al., arxiv:1706.03762]
論文名は面白いが、名前負けしない偉大さ。~~is all you needは今でもよく真似て使われている
当初、自然言語処理の分野での活用だったが、現在では画像や音声など活用の幅は多岐に渡り、近年のモデルを理解する上ではかなり重要な仕組み。
transformer以前のモデル
transformer以前は自然言語処理の参考書等の序盤に出てくるような、RNN(Recurrent Neural Network)やLSTM(Long Short Term Memory)が活用されていた。
RNN(Recurrent Neural Network)
単語の処理結果を次々と後続に回していく再帰的な処理を行っていくモデル。
長文になると前半の情報が失われていく長期依存性の課題を抱えていた。
LSTM(Long Short Term Memory)
長期依存性の課題を解決するため、入力/忘却/出力の3ゲートを活用し記憶する事と忘れる事をモデルに組み入れる
attention
RNNやLSTMは一つ手前のノードからの情報のみを受け取り処理していたが、各ノード間同士の関係性を直接考慮する
attentionとは?
attentionとは日本語に直すと"注意"となりあまりパッとしない...
自然言語処理の発展の中から出てきたものではなく、認知科学の分野でも存在する考えであり、主に4つの"注意"に大別される。
①空間的注意:空間上にある特定の場所に向ける注意。
②選択的注意:複数の情報から必要な情報を選び出す注意。
③集中的注意:特定の対象に向ける注意。
④分割的注意:複数の対象に同時に向ける注意。
自然言語処理の例としてイメージしやすいのは②選択的注意であり、代表的なものにカクテルパーティー効果が挙げられる。
カクテルパーティー効果とは、飲み会など雑多な音が混在する中でも相手の声に"注意"し聞き取ることができること。
この音声情報を文字情報に置き換えたものが自然言語処理におけるattentionになる。
そして、このattentionを最大限に生かしたものがtransformerになる。
transformer
transformerはEncoder(エンコーダー)とDecoder(デコーダー)の2つのブロックに分けられる
Encoder
英語から日本語への翻訳を例に挙げると、翻訳元の英語を入力し、英語としての特徴量(エッセンス)を凝縮させる
Decoder
翻訳する日本語を入力するが、transformerは1単語(トークン)づつ出力するため、transformerの出力結果を順次encoderに追加していく。
この過程を繰り返すことで、翻訳元の英語の特徴量を活用しながら、日本語への変換を行っていく。
encoder
英語→日本語の翻訳を例に、内部のデータを動きをアニメーション化しました。
英語 :Rome was not built in a day.
日本語:ローマは一日にして成らず。
①トークン化(Input Embedding)
文書をそのままプログラムに流すことはできないため、数値に変換(Encoding)した上で、抽象的な空間に埋め込む(Embedding)必要がある。
単語、文字、byteなどの単位でどの数値に変換するのかの対応表(辞書)が作成される。
代表的な3つのEmbedding方法に以下の3つが存在する。
(i) Character Embedding
文字(Character)単位に一意の番号を付番して埋め込む方法
⇒アルファベットは26字しかないため、辞書サイズは減るが言語構造の理解が難しくなる
(ii) Word Embedding
"weekend"などの単語単位に一意の番号を付番して埋め込む方法
⇒表現力は上がるが、辞書サイズが膨大になってしまう。
(iii) Sub-Word Embedding
(i)(ii)の間を取ったもの。Sub-Word EmbeddingのEncoding方法にはいくつかあるが、
代表的なものにByte-Pair Encoding(BPE)がある。BPEはGPTなどにも用いられているEncoding方法。
具体的には、バイト単位に分割したうえで、前後のバイトペアの出現数をカウントし、
数が多いペアを個別に付番する。
これを事前に定めた数に達するまで繰り返す。GPT-1では40000番まで付番が終わるまで繰り返す。
文字:ローマ
Byte(utf-8):%E3%83%AD %E3%83%BC %E3%83%9E
11100011 10000011 10101101 11100011 10000011 10111100 11100011 10000011 10011110
⇒11100011 10000011のバイトの組合せが多く出現するため、この組合せで1つ番号を付番
単純に付番した番号をベクトルにするのではなく、変換を行い抽象的な空間に埋め込む。
感覚としては、単語を別の観点で測りなおすイメージ。
例えば、"ローマ"という単語が4928番でトークン化された場合、品詞/国/首都などの軸で観点で評価し直すイメージ
トークン番号を抽象的な空間にどう変換するのかは、学習の中で修正されていくが、学習が進むと
似たような単語は空間上の近い場所へ変換されてくる。
この抽象的な空間で表現し直すことを分散表現と及び、空間に埋め込んでいるためEmbeddingとも呼ぶ。
各単語ごとに、抽象的な空間の成分を持つことになるため、トークン長×分散表現の次元数のベクトルが出来上がることになる。
②position embedding
文章を理解するうえで、各文字の位置関係は重要な情報である。そのため、単に単語ごとのトークン化しただけでは、位置情報はベクトル上に無いため、この情報を付与する。
transformerの論文ではsin/cosの三角関数で場所情報を変換(Encoding)し、それを単純に加算する。
(transformerの原論文では付与の仕方は関数で一意に決まっているが、その後の発展では付与の仕方についても学習時のパラメータ更新の対象となっている。)
③attention
attentionの処理の流れとしてはまず、Query ,Key , Valueと呼ばれる3つのinputが必要になる。
この3つがすべて同じものをself-attenitonと呼ぶ。
内部で行っていることは比較的シンプルで、QとKを掛け合わせる事で各単語間の関係性(類似性)の度合を数値化する。
ここで計算した度合を基に、Valueから値を取得し、元のベクトルに足し合わせる。
内部で行われているイメージでは各単語間から発せられる声を聴き、どの単語を重要視すべきかを判断している。
上記の操作を並列計算を生かすために、小分けに分割したうえで実施させている。(Multi-Head)
④MLP(Multi Layer Perseptron)
Attention終了後に、隠れ層1層のネットワークを伝搬させる。
ここまでの一連の過程をN回繰り返すことで、encoderに入力した文章の特徴量(エッセンス)を凝縮させる。
decoder
最終層まではencoderでの処理とほとんど同じ。主な違いとしては下記2点がある。
Masked Multi Attention
学習時にはカンニングがしないように、予測すべき次の単語は見えないようにしなければならない。
そのため、valueとの掛け合わせの際に右上の行列成分を-∞(マイナス無限大)にする。
Source Target Attention
encoderの部分ではQuery ,Key , Valueのinputとして同じものを利用していたが、
翻訳を行っている部分では英語のエッセンスと日本語のエッセンスが混在させる必要がある。
Query⇒decoder
Key , Value⇒encoder
最終層では、decoderに入力した単語の次単語として、どれが一番候補として高いかを出力する。
一番高い単語を選択し、改めてdecoderの入力へ入れなおす。
延々と繰り返す訳にもいかないので、EoS(End of Sentence)が出力されるまで繰り返す
transformer以後の発展
transformerのモデル構造を軸として、下記3つの分岐で発展を遂げていく。
・Encoder-Only:BERTなど
・Decoder-Only:GPTなど
・Encoder-Decoder:T5など