はじめに
初心者向けのLLMの説明記事です。「LLMってChatGPTみたいなものだけど、意味が曖昧でよくわかってない」という方や、「LLMがどういう仕組みかわからない」という方におすすめの記事となっております。
記事の要約
- ChatGPTなどの対話型AIの基盤となっているのが大規模言語モデル(Large Language Model)
- 言語モデルとは文章を確率で表現するモデルで、それを大規模にしたものがLLM
- つまり、言語モデルのパラメータ数と学習させるデータ量を増大させることで、高精度な文章生成を可能にした。
- LLMの技術的な発展の勢いは止まらず、ビジネスにおける活用も様々な企業で考えられている
LLMとは
ChatGPTは対話形式で答えてくれるチャットボットですが、ルールベースのチャットボットとは違ってAIが答えてくれています。そういうものを、対話型AIと呼びます。LLM(Large Language Model:大規模言語モデル)は、ChatGPTのような対話型AIに使われているAIモデルのことを指します。ChatGPTは「GPT」というLLMから作られており、それを活用したチャットのサービスと考えることができます。(※GPTだけでは、文章のあとに続く文章を考えるものとなっていますが、ChatGPTは対話できるように調整されています。)
言語モデル
ここで、大規模言語モデル、すなわちLLMの「言語モデル」について説明します。言語モデルとは、文章中の単語の後に続く単語の出現確率を計算するモデルのことで、大量の文章を学習することでそのようなことを可能にしているのです。これだけではピンとこない方も多いと思いますので、具体例で説明します。
一般的なAIモデルの学習と推論
そもそも、AIのモデルは学習と推論の二つのプロセスに分かれています。犬と猫の画像判別を例に考えます。犬と猫の画像をAIに教え込ませるプロセスが学習です。画像に対してちゃんと犬か猫か答えを与えるのです。学習した結果、犬の確率が何%で猫の確率が何%なのかを判別するモデルが完成します。そして、推論する際には、画像しか与えません。そうすると、その画像が犬なのか猫なのかを予測してくれます。
言語モデルの学習と推論
言語モデルの学習プロセスでは、大量の文章データを言語モデルにいれます。それによって、ある文章の次に続く単語を学習していきます。例えば、「今日の天気は晴れです。」という文章があったとして、「今日の天気は」という文章に続く単語は「晴れ」なので、その文章に対して「晴れ」という答えを言語モデルに与えているというわけです。学習した結果、文章を確率で表現するモデルが完成します。
推論は、ChatGPTで文章を入力して回答が返ってくるプロセスと同じです。例えば、「今日の天気は」という文章を言語モデルに入力として与えたとします。そうすると、言語モデルは次にどんな単語が続くかを確率に従って考え、「晴れ」という単語が続く確率が高そうだという結論になったら、「晴れ」を出力しています。そして、言語モデルに「今日の天気は晴れ」と入力すると、確率の高い「です」が出力されます。それを繰り返して文章が作られていきます。
大規模化
LLMはLargeとついていますので、「大規模な」言語モデルです。何が大規模なのでしょうか。それは、パラメータ数と学習させるデータ量です。AIのモデルは、いくつもの数式で成り立っています。単純な数式y=ax+bで考えますと、パラメータというのはaやbにあたるものです。パラメータ数を大規模にすることで、複雑な処理を可能にしました。GPT-3に関していえば、パラメータ数=1750億、学習させる文章量=45TBなので、ものすごく大規模であることがわかります。
LLMの発展
この一年間のLLMの技術的な発展の勢いはすさまじいものでした。LLMの機能は文章生成だけでなく、データ分析など多岐にわたっております。さらに、入力に使えるのは文章だけではありません。画像や音声も入力可能となり、マルチモーダルへの取り組みも広がっています。こうした、LLMの機能をビジネスに活用しようと考えている企業がたくさん出てきています。社内でのLLM活用についても記事を書きましたので、ご興味のある方はご覧ください。
おわりに
LLMについて自分なりに整理しました。LLMは単純なようで複雑なようにも思います。記載内容に誤りがございましたらご指摘いただけたらと思います。