背景
- LLMの勉強していく時に混乱したのでまとめておく
- この分野の人には当たり前のことすぎてまとまっていることがあまりないので初学者向けに
Transformerとは?
-
2017年に Attention is All You Needで紹介されたLLMのアーキテクチャ
-
翻訳タスクなどが得意
-
GPTやBERTモデルのベースとなった
Encoderとは?
- Encoderへの入力データの特徴・文脈の理解を考慮したアウトプットを生成します
Decoderとは?
- Decoderへの入力データから次に出力する最適な単語を類推します
- Transformerの場合はEncoderからの出力を考慮します
BERTとは?
- TransformerのEncoderの部分のみを利用したモデル(Encoder-Onlyモデル)の代表格です
- 入力文章を理解し、分類・感情分析・要約タスクなどが得意です
GPT
- TransformerのDocoderの部分のみを利用したモデル(Decoder-Onlyモデル)の代表格です
- テキスト生成タスクを得意とします
- 言わずと知れたOpenAIのモデルです