LLMの歴史
- LLMを学んでいく中でこれまでの歴史を知る必要があると感じたので調べてみた
- 2017年の 「Attention is all you need」 がLLMの転換期になったことは周知の事実である。
- この記事ではtransformer誕生以前からの変化と現在までの流れに重点を置き、まとめてみる。
言語処理モデルの主な形式について
エンコーダ・デコーダ形式
- 最初期のtransformerはこの形式である
- エンコーダで入力文を読み解き、デコーダで生成するモデル
- 読むと書くの役割分担が明確
エンコーダ形式
- 生成することは捨てて読み取りに特化
- 双方向から同時に読み取るため、単語の意味や文脈を深く理解できる
デコーダ形式
- 次の単語を予測するという単純な仕組みを巨大化させることで賢くなることが発覚
- わざわざエンコーダを用いる必要がない
- データの量・計算量・モデルの大きさを大きくするとAIの賢さは向上し続けるというスケール則の発見
transformer以前
- 言語処理においてRNNとCNNが2大巨頭であった。
RNN(再帰型ニューラルネットワーク)
- 過去の状態を隠れ状態として持つモデル
- ある単語以前の情報をすべて用いるため再帰的と呼ばれる
- 弱点
- 並列処理ができないこと
- 勾配消失が起こること
CNN(畳み込みニューラルネットワーク)
- フィルターをスライドさせながらデータの特徴を抽出するモデル
- 主に画像の処理に用いられる
- 文章では数単語ずつの組み合わせを用いて意味を拾う
- 局所的な視野であり、遠くを見るには層を深くする必要がある
- 学習が大変になる
transformer以降
GPTシリーズ(OpenAI)
- GPT1
- トランスフォーマデコーダを用いたモデル
- 事前学習とファインチューニングを採用
- GPT2
- モデルを拡張しパラメータの数は15億に
- 悪用を懸念し、公開は段階的に行われた
- GPT3
- さらに巨大化し、パラメータは1750億
- プロンプトエンジニアリングの登場
- スケーリング法則を発見
- chat GPT
- GPT3.5を基盤としてチャット形式に対応
- チャットUIを用いて一般大衆に公開された
- RLHF:人間のフィードバックによる強化学習を採用
- GPT4
- マルチモーダル対応
- 高度な文脈理解
BERTシリーズ
- BERT
- エンコーダのみを用いたLLM
- 双方向的な文脈理解を用いて多くのNLPタスクで性能向上
- RoBERTa
- BERTの学習手法を改良、データ数を増やし精度を向上
- ALBERT
- パラメータ効率を向上させ、軽量なモデルの発明
双方向であるがゆえに次の単語を予測するという生成には不向き
そのため、LLMの主役にはなれなかった。
google検索などの裏方として活躍している。
claude(Anthropic)
- OpenAI社で働いていた人々が作成した
- AIに倫理的な自己規律を持たせる(憲法AI)ことで安全性を担保している
- コーディングが得意(claude codeという自立して開発するモデルが誕生)
- 最大100万トークンに及ぶ長文コンテキストに対応
llama(Meta)
- オープンソースの高性能LLM
- スマホで動くサイズから大規模なものまで幅広いサイズ展開
- Ollamaなどはこれを基準に設計
gemini(Google)
- ネイティブマルチモーダル対応
- 100万トークン以上の圧倒的なコンテキストウィンドウ
- googleツールとの連携
今後のLLMの動向について
ネイティブ・マルチモーダル化
- 従来のようにテキスト変換を挟まず最初から画像・音声・動画を処理できるようになる
- 人間の見えている景色と同じ景色をAIが見ることができるようになる
AIエージェント
- 一つの目的に対してAI自身が計画・実行・評価のプロセスを踏む
- 手順を言わずとも手段を考え実行できるようになる
推論モデル
- 論理的に考えるAIの誕生
- 難しい数学などの問題を試行錯誤してから出力するようになる
- 熟考することでハルシネーションを大幅に削減することができる