本記事の目次
違いをまとめる理由
昨今、AI関連の用語がメディアで頻繁に登場し、AI技術を持つ会社としては嬉しい限りです。
しかし、その意味や仕組みが理解されずに「できること」だけが注目され、エンジニアの設計判断と経営層の期待値設定にズレが生まれがちなのも事実。
本記事では、用語の定義・構造・主要技術をそろえておきたいかと思います。
LLMとは
LLMとは、大規模言語モデルのことを指します。次トークン予測を学習し、文章生成・要約・翻訳・コード補完まで広くこなします。
端的に言えば、
- 計算効率が非常にいい手法で
- 人間が細かいチューニングをせずとも
- 推論に必要な要素を抽出してくれる
という特徴を持っています。
中身はTransformer(デコーダ中心)の多層スタックが主流で、自己注意(Self-Attention)でコンテキスト内の長距離依存を扱い、事前学習→微調整→安全整合(RLHF/RLAIF)という流れが定番です。
生成AIとは
LLMと混同されがちなのが生成AIです。
これは、生成そのものが目的のAIの総称で、テキスト・画像・音声・動画を生成することができるAIのことを指します。
方式はいくつかあり:
- 自己回帰:LLMなど(テキストに強い)
- 拡散モデル:画像・動画生成の主流(U-Net+スケジューラ)
- GAN:高解像度画像や特定ドメイン
- VAE:潜在表現の取得と生成
などが存在します。
例えば、GANはLLMによる推論の実現ではなく、生成器と識別器の反復学習によって実現されるものです。
LLMも生成AIの一種ですが、「生成AI=LLM」ではない点に注意が必要です。
しかし、昨今はLLMを使用した生成AIが主流であるため、文脈上は同じ意味として扱われることが多いようです。
テキスト生成AIサービス例: OpenAI ChatGPT
画像生成AIサービス例: Google Imagen
音声生成AIサービス例: Suno
動画生成AIサービス例: Google Veo
AIエージェントとは
これは、モデル単体ではなくシステムのことを指します。
LLM等をポリシーとして掲げ、外部ツールを呼び出してタスクを完遂するツールの総称です。
主要なAIエージェントがこなすタスクは以下の通りです:
- プレゼン資料自動作成
- 議事録まとめ
- マルチタスクAIエージェント
このように、AIエージェントは「人間が行うタスクを代行してくれる」といったバリューを持ちます。
対して、そのほかのAIは人間がタスクを行う際の補助輪的な役割を果たしてくれると言っても良いでしょう。
資料自動作成AIエージェント例: Gamma
議事録まとめAIエージェント例: Zoom AI Companion
マルチタスクAIエージェント例: GenSpark
それぞれの違い・関係性図
| 項目 | 概念 | 構造 | 主な技術 |
|---|---|---|---|
| 生成AI | 入力から新しいデータを生成するAIの総称(画像/音声/コード/文章) | 方式は複数:自己回帰、拡散、GAN、VAE など | トークナイズ/BPE、拡散(U-Net/スケジューラ/ガイダンス)、GAN対戦学習、対数尤度/ELBO |
| LLM | 文章トークンを次トークン予測で学ぶ大規模言語モデル(生成AIの一種) | Transformer(多層 Self-Attention)。数十億~兆パラメータ | 注意機構(Self-Attention)、事前学習(自己教師)、微調整(SFT/LoRA/PEFT)、RLHF/RLAIF、RAG |
| AIエージェント | モデルが観察→思考→行動を繰り返し、ツール実行や計画を行うシステム | ポリシー(LLM)+メモリ+ツール群(API/DB/ブラウザ)+ループ制御 | ReAct/CoT/ToT、ツール呼び出し(Function Calling)、プランニング、RAG/ベクタDB、監査/安全制御 |
AI
├─ 機械学習 (ML)
│ └─ ニューラルネットワーク (NN)
│ └─ ディープラーニング (DL)
│ ├─ アーキテクチャ
│ │ ├─ CNN
│ │ ├─ RNN
│ │ └─ Transformer
│ │ └─ LLM ← Transformer系の巨大モデル
│ └─ 生成タスクで用いられる方式
│ ├─ 自己回帰モデル:LLM 等
│ ├─ 拡散モデル:U-Net
│ ├─ GAN:生成器/識別器
│ └─ VAE:潜在変数モデル
│
└─ AIの応用
├─ 生成AI
│ ├─ LLM(Transformer系)
│ ├─ GAN / VAE
└─ AIエージェント
├─ 思考部分:LLM
├─ データ:DB / RAG
└─ 実行:APIメイン