LLMを調べたきっかけ
昨今話題になっているLLM(大規模言語モデル)について皆さんはどのようなイメージをお持ちでしょうか。私自身はCHATGPTのようなものかなというぼんやりとしたイメージしか持っていませんでした。
最近は色々な企業が独自のモデルを開発しているとのことで、そもそもモデルってなんだ?、CHATGPTとは違うのか?ということが知りたくて調べてみました。
私の備忘録的な記事ですが、皆様がLLMについて理解していく一助になれれば幸いです。
調べた内容
LLM(Large Language Models)とは
LLMは、自然言語処理(NLP)の分野で使用される深層学習モデルの一種であり、その主な目的は、膨大な量のテキストデータを学習し、人間のような自然な言語生成や理解を実現することです。ここでいう「大規模」とは、従来の自然言語モデルと比べ、「計算量」「データ量」「パラメータ数」の三つの要素を大幅に増やして構築されていることに由来します。
三つの要素は、具体的には、コンピュータが処理する業務量、コンピュータに入力した文章データの情報量、ディープラーニング技術特有のパラメータのことを指します。これらの変数を著しく巨大化することで、非常に精度の高い言語モデルが生成されました。
この3つの変数の巨大化について、2020年にOpenAIが発表した論文では、自然言語モデルの性能と、この3つの要素「計算量」「データ量」「パラメータ数」との間に、「Scaling Law(べき乗則)」が成立すると提唱し、実証されたといいます。
言語モデルとは
そもそも、言語モデルとは何でしょうか。言語モデルとは、文章の並び方に確率を割り当てる確率モデルです。別の言い方をすると、ある単語やフレーズのあとに続く単語の出現確率を計算するモデルとも言えます。
この言語モデルでは、学習データをもとに、より自然な文章の並びに対して高い確率を割り当て、文章として成立しない並びには低い確率を割り当てます。例えば、「Qiita君おはよう」という文字の並びに続く文字は何かを予測します。この場合、「ございます」という文字が続くのが最もらしいのではないかと予測し、最終的な文字の並びは、「Qiita君おはようございます」のようになるといった具合です。
「LLM」と「生成AI」「自然言語処理」との違い
LLMは、前述した通り「膨大なテキストデータから言語のパターンを学習し、テキスト生成や要約などのテキストに関わるタスクを高い精度で行うことができる深層学習モデル」です。自然言語の生成に特化しています。
生成AIは、テキスト・画像・音声などを自律的に生成できるAI技術の総称です。LLMは生成AIの中でも特に自然言語処理を担うモデルと位置づけられます。つまりLLMは、生成AIと呼ばれるモデルの中で、自然言語の生成に特化しているものといえます。
自然言語処理はコンピュータに人間の言語を理解・処理させる技術を指します。機械翻訳や文書要約など多岐にわたる応用があります。LLMは、この自然言語処理の中でも、特に大規模なデータセットを用いて言語の複雑なパターンを学習する技術のことを指します。
「LLM」と「機械学習」との違い
機械学習は、統計学やデータマイニング手法を使ってコンピュータにデータから学習する能力を持たせ、未知のデータに対して予測や判断を行わせる技術のことです。データを入力し、そこから統計的なパターンや特徴を抽出することで、モデルを構築します。話はそれますが、深層学習や生成AIは機械学習の応用分野の一つではあるのですが、その中でも画像認識や音声認識、会話の要約など従来の機械学習モデルではうまく対応できなかったタスクを解決できるようになってきたため、現在注目を集めています。
一方で、LLMは、機械学習の特定のアプリケーションの一つであり、巨大なテキストコーパスから言語のパターンを学習し、新しいテキストを生成する能力に焦点を当てています。LLMは、機械学習の原則に基づいて機能しますが、その目的は自然言語の理解と生成に特化しています。
LLMが注目されている理由
LLMが最近注目されるようになった理由三つあります。一つ目は、「これまでのAIでは到達するのが難しいと考えられていた人間の言語能力」に匹敵する性能を示し始めたからです。CHATGPTも、自然言語を使って対話応答が可能になったということで話題になりました。
二つ目は、大規模にすればするほど性能が上がる法則があるからです。モデルサイズ、データサイズ、学習計算量を大きくすればするほどモデルの性能が上がるという法則が見つかっています。また、モデルが一定以上大きくなると急激に性能が向上することから、資金力のあるIT企業がお金をかけて、LLMをより巨大にするという現象が起きています。資金力のある企業からすれば、「投資すれば性能が確実に向上する」ということがわかっているので投資を惜しむはずはありませんよね。
三つ目は、大規模化に伴って、新たなタスクを解くことが可能になるからです。この「大規模化に伴って新しい能力をどんどん手に入れていく」という能力が生んだのが「超汎用的なモデル」、つまり CHATGPTです。今までは一つのタスクに一つのモデルが基本でした(翻訳を行うのに特化したDEEPLなど)。しかし、ご存じのように、CHATGPTは一つのモデルで翻訳、プログラミング、情報検索など複数のタスクを行うことができます。
Google, Meta, OpenAI, DeepMindなどが競ってLLMを開発しているなか、これらの企業ほど資金力のない企業が同じ分野で戦っていけるのでしょうか。当然のように上位の企業の独占状態になってしまうのではないかと考えています。また、どんどんモデルの性能が上がっていった先で、LLMはどんなタスクまでこなせるようになっているのでしょうか。
それによってもたらされる影響が計り知れないからこそ、大手企業は投資を惜しまないのでしょう。
AIがただのブームで終わらない可能性は高そうだなと感じました。
まとめ
今現在もCHATGPTの機能追加がされ続けているように、LLMの発展はまだまだ止まりそうにありません。CHATGPTを使ったことはありましたが、なぜこんなにも注目されているのか、そもそもLLMとは何かよく知りませんでした。この記事をまとめたことをきっかけに、今後のLLM関連の動きについていけるように、少しでも話せるように準備していきたいと思います。
注意点
あくまで私が調べた内容であり、間違いを多分に含んでいると思われます。この記事だけを見るのではなく、参照サイトを見に行ったり、独自で調べたりして理解を深めていただければと思います。
参考にさせていただいたサイト
LLM(大規模言語モデル)とは?仕組み・活用分野・現状の課題を解説
【一撃でわかる】大規模言語モデル(LLM)入門!基礎からわかりやすく徹底解説。 - すえつぐのNLP&LLM
【図解】一撃でわかるLLMの技術。アーキテクチャ設計からデータ収集までわかりやすく解説。 - すえつぐのNLP&LLM
歴代の自然言語処理モデルのスコア推移 #自然言語処理 - Qiita