51
41

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

LLMが突然賢くなった理由を紐解く - 5つの革新とその影響度

Posted at

記事の執筆にあたってAIの補助を多分に利用しています。

LLMが突然賢くなった理由を技術史から紐解く - 5つの革新とその影響度

はじめに

「ChatGPTってなんでこんなに賢いの?」と思ったことはありませんか?

2022年末のChatGPT登場から約2年、LLMは私たちの日常に溶け込みました。でも、わずか数年前まで、AIとの自然な会話は夢物語でした。

この記事では、LLMが劇的に進化した5つの技術革新を、登場順と影響度の両面から解説します。それぞれの技術が「なぜ」「どれくらい」LLMを賢くしたのか、エンジニア視点で深掘りします。

TL;DR

  • Transformer(2017): すべての基盤 [影響度: ★★★★★]
  • スケーリング則(2020): 「大きくすれば強くなる」の発見 [影響度: ★★★★★]
  • GPT-3(2020): 創発的能力の実証 [影響度: ★★★★★]
  • RLHF(2022): 実用化の決め手 [影響度: ★★★★★]
  • Chain-of-Thought(2022): 推論能力の向上 [影響度: ★★★]

2017年: Transformer - すべてはここから始まった

何が起きたか

Googleの論文「Attention is All You Need」で、Transformerアーキテクチャが登場しました。

なぜ革新的だったか

それまでのRNN/LSTMは:

  • 系列を順番に処理(並列化が困難)
  • 長距離依存関係の学習が苦手
  • 学習に時間がかかる

Transformerは:

  • Self-Attention機構で全トークン間の関係を一度に計算
  • 並列処理が可能(GPUとの相性が抜群)
  • 長い文脈でも情報が失われにくい

影響度: ★★★★★

現在のすべてのLLM(GPT、Claude、Geminiなど)がこのアーキテクチャベースです。Transformerなくして現代のLLMなし


2018-2019年: 事前学習の確立

何が起きたか

BERT、GPT-2の登場で、大規模事前学習 + ファインチューニングのパラダイムが確立。

なぜ重要だったか

  • 教師なしデータで基礎的な言語理解を獲得
  • タスク特化の学習が少量データで可能に
  • 転移学習の威力を実証

影響度: ★★★★

実用的なNLPアプリケーションが一気に増えました。


2020年: スケーリング則 - 「大きさは正義」の発見

何が起きたか

OpenAIの研究で、モデルサイズ、データ量、計算量と性能の関係が数式化されました。

なぜゲームチェンジャーだったか

Loss ∝ N^(-α)  (Nはパラメータ数)

この発見により:

  • 性能向上が予測可能に
  • 大規模投資の根拠が生まれた
  • 「とにかくスケールアップ」戦略が始まった

影響度: ★★★★★

現在の数千億パラメータモデルへの道を開きました。科学的根拠に基づく大規模投資を可能にした点で、ビジネス的にも技術的にも最重要。


2020年: GPT-3 - 創発的能力の衝撃

何が起きたか

1750億パラメータ(当時としては桁違い)のGPT-3が登場。

なぜ衝撃的だったか

Few-shot Learningの実証:

例1: 犬 → dog
例2: 猫 → cat
例3: 鳥 → ?
答え: bird

ファインチューニングなしで、例を見せるだけで新しいタスクを実行。

創発的能力

  • 簡単な算数
  • コード生成
  • 論理的推論

小さいモデルでは見られなかった能力が、規模を大きくすることで突然出現しました。

影響度: ★★★★★

「LLMは本当にすごいかもしれない」と世界が気づいた瞬間。


2022年: RLHF - 実用化の決め手

何が起きたか

Reinforcement Learning from Human Feedbackにより、人間の意図に沿ったモデルを作成。

技術的な仕組み

  1. 教師あり学習で基礎モデルを作成
  2. 人間が複数の出力をランク付け
  3. 報酬モデルを学習
  4. 強化学習でモデルを最適化

なぜ革新的だったか

RLHFの前:

ユーザー: 美味しいパスタの作り方は?
モデル: パスタは小麦粉から作られる麺類で...(定義を延々と)

RLHFの後:

ユーザー: 美味しいパスタの作り方は?
モデル: 簡単なペペロンチーノの作り方をご紹介します。
1. たっぷりのお湯で... (実用的な回答)

影響度: ★★★★★

ChatGPTがバズった最大の理由。技術的にはシンプルですが、LLMを「使える」ツールに変えた点で計り知れない影響。


2022年: Chain-of-Thought - 推論力の向上

何が起きたか

「ステップバイステップで考えましょう」とプロンプトに加えるだけで、複雑な問題の正答率が向上。

通常のプロンプト:

Q: ロジャーは5個のボールを持っています。
   テニスボールを2缶買いました。各缶には3個入っています。
   今、ロジャーは何個のボールを持っていますか?
A: 11個

Chain-of-Thoughtプロンプト:

A: ステップバイステップで考えましょう。
   最初に5個持っていました。
   2缶買い、各缶に3個なので、2×3=6個追加。
   合計: 5+6=11個

影響度: ★★★

重要ですが、大規模モデルがあってこそ効果を発揮。基盤技術ではなく、応用技術。


2023年以降: データ品質革命

何が起きているか

  • 量から質へのシフト
  • 合成データの活用(AIが作ったデータでAIを学習)
  • 高度なデータフィルタリング

なぜ重要か

同じパラメータ数でも、データ品質で性能が大きく変わることが判明。効率的な学習が可能に。

影響度: ★★★★

コスト削減と性能向上を両立する現実的なアプローチ。


結論: 3つの基盤技術が揃って実現した

LLMの「賢さ」は、以下の3つが揃って初めて実現しました:

  1. Transformer - 技術的基盤
  2. スケーリング - 進化の方向性
  3. RLHF - 実用化の鍵

どれか一つでも欠けていたら、今日のようなLLMは存在しなかったでしょう。

今後の展望

  • マルチモーダル: テキストだけでなく、画像・音声・動画を統合
  • 効率化: より小さく、速く、安く
  • 長文脈: 数百万トークンの処理
  • 推論時間の活用: より深く「考える」AI

LLMの進化はまだ始まったばかりです。

参考文献

  • Vaswani et al. (2017) "Attention is All You Need"
  • Brown et al. (2020) "Language Models are Few-Shot Learners" (GPT-3)
  • Kaplan et al. (2020) "Scaling Laws for Neural Language Models"
  • Ouyang et al. (2022) "Training language models to follow instructions with human feedback" (InstructGPT)
  • Wei et al. (2022) "Chain-of-Thought Prompting"
51
41
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
51
41

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?