AIや大規模言語モデルについて学び始めると、次々に専門用語が出てきます。
「LLM」「プロンプト」「RAG」「Embedding」「Agent」……。
なんとなく聞いたことはあるけれど、きちんと説明しようとすると難しい。そんな人も多いのではないでしょうか。
この記事では、大規模モデルを理解するうえでまず押さえておきたい10個の基礎概念を、できるだけわかりやすく整理します。
1. LLM:大規模言語モデル
LLMとは「Large Language Model」の略で、日本語では大規模言語モデルと呼ばれます。
大量の文章データを学習し、人間のように文章を理解したり、生成したりするAIモデルのことです。
ChatGPTのように、質問に答える、文章を書く、要約する、翻訳する、アイデアを出すといった作業ができるのは、このLLMの仕組みがあるからです。
AIを学ぶうえで、まず最初に理解しておきたい中心概念です。
2. Prompt:プロンプト
プロンプトとは、AIに対して出す「指示文」のことです。
たとえば、
「この記事を要約してください」
「初心者向けに説明してください」
「ビジネス向けの文章に書き換えてください」
といった入力がプロンプトです。
同じAIを使っていても、プロンプトの書き方によって出力の質は大きく変わります。
つまり、AIを使いこなす力は、プロンプトを設計する力とも言えます。
3. Token:トークン
トークンとは、AIが文章を処理するときの単位です。
人間は文章を「単語」や「文」として理解しますが、AIは文章を細かく分割したトークンとして扱います。
日本語の場合、1文字や単語の一部がトークンになることもあります。
AIには一度に扱えるトークン数の上限があり、これが「長い文章をどこまで読めるか」「どれくらい長く返答できるか」に関係します。
4. RAG:検索拡張生成
RAGは「Retrieval-Augmented Generation」の略で、日本語では検索拡張生成と呼ばれます。
簡単に言うと、AIが回答する前に外部の情報を検索し、その情報をもとに答えを作る仕組みです。
LLMは学習済みの知識だけで答えると、古い情報や不正確な情報を出してしまうことがあります。
そこでRAGを使うことで、社内資料、データベース、最新情報などを参照しながら、より正確な回答を生成できるようになります。
5. Embedding:埋め込み
Embeddingとは、文章や単語の意味を数値のベクトルとして表現する技術です。
たとえば、「犬」と「猫」は意味的に近い言葉なので、ベクトル空間上でも近い位置に配置されます。
この仕組みによって、AIは単なるキーワード一致ではなく、「意味の近さ」をもとに情報を探すことができます。
検索、レコメンド、分類、RAGなど、多くのAI活用の土台になる概念です。
6. ベクトルデータベース
ベクトルデータベースは、Embeddingによって数値化されたデータを保存し、検索するためのデータベースです。
普通の検索では、キーワードが一致しているかどうかが重要になります。
一方、ベクトルデータベースでは「意味が近いかどうか」で情報を探せます。
たとえば、「売上を伸ばす方法」と検索したときに、「マーケティング施策」や「顧客獲得戦略」に関する資料を見つけられるようになります。
RAGを実現するうえでも重要な技術です。
7. Function Calling:関数呼び出し
Function Callingとは、AIが必要に応じて外部の機能やツールを呼び出す仕組みです。
たとえば、AIが天気情報を知りたいときに天気APIを使ったり、予約システムにアクセスして空き状況を確認したりするイメージです。
LLM単体では、文章を生成することは得意ですが、実際のシステム操作や最新データの取得は苦手です。
Function Callingを使うことで、AIは「答えるだけ」ではなく「実行する」存在に近づきます。
8. Agent:エージェント
Agentとは、目的に向かって自律的に考え、行動するAIの仕組みです。
単に質問に答えるだけではなく、必要な作業を分解し、ツールを使い、結果を確認しながら進めていきます。
たとえば、
「競合調査をして、資料にまとめてください」
という指示に対して、検索、情報整理、要約、資料作成までを段階的に進めるようなイメージです。
AI活用が進むほど、このAgentの考え方は重要になっていきます。
9. Fine-tuning:微調整
Fine-tuningとは、すでに学習済みのAIモデルに対して、追加のデータを使って調整することです。
たとえば、企業独自の文章スタイル、専門分野の知識、特定業務の回答パターンなどを学習させることで、目的に合ったモデルに近づけることができます。
ただし、すべてのケースでFine-tuningが必要なわけではありません。
プロンプト設計やRAGで十分な場合も多いため、目的に応じて使い分けることが大切です。
10. Model Distillation:モデル蒸留
モデル蒸留とは、大きく高性能なモデルの知識を、小さなモデルに移す技術です。
大規模モデルは高性能ですが、そのぶん計算コストや運用コストが高くなりがちです。
そこで、大きなモデルの出力や判断を参考にして、より軽量なモデルを学習させます。
これにより、性能をある程度保ちながら、処理速度やコスト面で扱いやすいAIを作ることができます。
まとめ:まずは「言葉の意味」をつかむことから
AI大規模モデルを理解するには、いきなり難しい数式や実装から入る必要はありません。
まずは、よく使われる概念の意味をざっくりつかむことが大切です。
今回紹介した10個は、AIを学ぶうえで何度も出てくる基本用語です。
特に、LLM、Prompt、Token、RAG、Embeddingあたりを理解しておくと、AI関連の記事やサービス説明がかなり読みやすくなります。
AIは難しそうに見えますが、用語をひとつずつ整理していけば、全体像は少しずつ見えてきます。
まずはこの10個の概念を、AI学習の入口として押さえておきましょう。