LLMの歴史について勉強してみた
ルールベースの時代(〜1990年代)
特徴
- ELIZA(1966)
人が ルールを手で書く
if-then だらけで限界あり
ルールが爆発する
想定外の入力に弱い
言語の「曖昧さ」を扱えない
👉 人が全部書くのは無理という結論
統計的自然言語処理(1990〜2010年)
代表技術
- n-gram
- HMM(隠れマルコフモデル)
- TF-IDF
発想の転換
- 「ルール」ではなく
👉 確率で言語を扱う
長い文脈を扱えない
語彙が増えると破綻
ニューラルネットの復活(2010〜2016)
背景
- GPUの進化
- データ量の爆発
技術
- Word2Vec(2013)
- RNN / LSTM
進歩点
- 単語を「意味ベクトル」で表現
- 文脈をある程度記憶できる
しかし…
- 長文になると記憶が消える
- 並列化できず遅い
Transformer革命(2017)
決定的論文
“Attention is All You Need” (2017)
革命ポイント
- RNNを捨てた
- Attentionで全文を一気に見る
- 並列計算が可能
ここで初めて
- 長文理解
- スケールさせる価値が出た
👉 LLMの土台が完成
事前学習モデルの登場(2018〜)
代表例
- BERT(2018)
- GPT(2018)
新しい考え方
- 巨大テキストで事前学習
- 目的タスクに微調整
GPTの思想
「次の単語を当てるだけで、知性が生まれるのでは?」
この仮説が 当たってしまった
LLM時代の到来(2020〜)
スケール法則
- モデルを大きく
- データを増やす
- 計算量を増やす
👉 性能が 素直に向上
代表モデル
- GPT-3(175B)
- PaLM
- LLaMA
発見された能力
- few-shot learning
- 推論っぽい振る舞い
- コード生成
7️⃣ ChatGPT以降(2022〜)
変化点
- 人間との対話に最適化
- RLHF(人のフィードバックで学習)
本質
「賢くなった」のではなく
「人に使いやすくなった」
結果
- 一般ユーザーに爆発的普及
- LLM=AI の代名詞に
現在の論点(2024〜)
技術的課題
- ハルシネーション
- 推論の信頼性
- コスト・電力
新しい流れ
- MoE(混合専門家)
- RAG(外部知識接続)
- Tool use(コード・検索)
- ローカルLLM