はじめに
この記事は全7章に分かれた「本当にわかりやすいAI入門」の第6章です。以前の記事を読まれていない方は、先にこちらをご参照ください。
章 | 内容 |
---|---|
第1章 | AIはなぜ人間みたいなことができるのか? |
第2章 | 脳はすごい |
第3章 | 伝わりやすさと境界の決め方 |
第4章 | 細胞増やすだけではダメだった |
第5章 | 時間も手間もお金もかかる |
第6章 | 文章生成の大規模化による進化(この記事) |
第7章 | AIのこれから |
この記事は個人で作成したものであり、内容や意見は所属企業・部門見解を代表するものではありません。
第6章 文章生成の大規模化による進化
文章生成の仕組みがここ数年で大きく進化しました。今回はそのお話です。
大量の知識に基づく文章生成が可能に
第4章で、夏目漱石の小説を使って調整することにより、夏目漱石風の小説を書いてくれる仕組みをご紹介しました。
(第4章より)
この仕組みの改良が進んだ結果、インターネットや世界中の文献などの大量情報を使った調整もできるようになり、多種多様な知識に基づくさまざまな文章を生成できるようになりました1。
2020年8月には、この仕組みを使ってニセの記事が生成されていたブログがSNSのニュースサイトのランキングで1位になってしまい大きな話題になりました。みんな人が書いた記事だと思っていたのです。
さらに仕組みを大規模化すると……
当初は規模を大きくしすぎると逆に性能が落ちてしまうと考えられていましたが、その後の研究で、大規模化すればするほど精度が上がることもわかりました2。そのため、文章生成の仕組みはどんどん大規模化しており、第2章でご紹介した手書き数字の認識の例では45,360個しかなかった調整すべき値(伝わりやすさや境界の値)の数が、最近では1兆を超え始めています3。
(グラフの出典)東京大学松尾研究室「AIの進化と日本の戦略 23/2/17」
飛躍的に性能が向上することも判明!
また、調整のための計算量があるポイントを超えると、性能が飛躍的に向上することもわかりました。下のグラフは複雑な数学の問題や大学の受験問題、単語の意味の特定に対する正確さのグラフです。
(出典)「Characterizing Emergent Phenomena in Large Language Models」
縦軸は正解率で、横軸が調整のための計算量、赤い点線は適当に答えたランダムな場合の正解率です。いずれのグラフも前半の計算量では正解率がランダムと変わらずボロボロなのですが、ある計算量を境に飛躍的に向上していることがわかります。
追加の調整で会話もできるようになった!
文章生成の仕組みは、質問文を与えると質問の答えを続きとして生成できます。これは、インターネットにインタービューや掲示板などの質疑応答の文章もたくさんあるためと思われます。ただし、質問に答えられるのは特定の事実に関する明確な質問文を与えた場合だけの話であり、2020年時点では流暢な会話や長い会話のやり取りはできませんでした4。
その後、会話を実現するための追加の調整に成功し、2022年終わりには、まるで人とやりとりしているかのような自然な会話のできる仕組みが大きな話題になりました。以下、この会話を実現するための調整内容について簡単に解説します5。
①ベースになるのは、インターネットの大量の情報や文献などを使って調整された文章生成の仕組みです。
②これに対して、大量の対話の文章を用意して追加の調整を行います。対話の文章とは、さまざまな問いかけ文と理想の回答文のペアです。これを人が大量に用意して理想の回答を返すように調整することで、人の問いかけに対して自然な回答ができるようになります6。
③さらに回答の良し悪しを判定する別の仕組みを用意して、②の調整が終わった仕組みの精度を判定させます。この判定では、デマがないか、人や環境を傷つけないか、ユーザーの質問を解決しているかどうかなどを評価軸にしています。
この判定の仕組みと文章生成の仕組みをプログラムでつないで、判定結果の良し悪しに応じて文章生成の仕組みを自動調整できるようにします。これをグルグル回すことで、判定結果が良くなる方向へと調整していきます7。これが終われば会話の仕組みの完成です。
なお、この③で使う判定の仕組みも、事前に大量のデータを使って調整したものです。具体的には、まず大量の問いかけ文を用意して②の終わった仕組みに問いかけて回答文を出力させます。そして、その個々の回答文の良し悪しを人が判定することで、大量の問いかけ文+回答文とその評価結果のセットを用意します。これを使って、問いかけ文と回答文を入力すると正しい評価結果が出力されるように調整されています8。
専門家ではなくても使えるAIが爆誕!
これまでの仕組みは、専門家が用途に応じたものを設計・開発して試行錯誤し、大量のデータを使って調整することによりでき上がっていました。また、でき上がった仕組みの調整にも専門家の知識やコツが必要でした。
これに対して会話ができる仕組みでは、文章で指示ができるので誰でも試行錯誤ができます。また、仕組みの調整もある程度は文章で指示することができ9、追加の情報も文章で与えればそれに基づいた処理ができます10。専門家ではなくても簡単に活用できる仕組みが誕生したのです。
第6章のまとめ
- 文章生成の仕組みが大きく進化しました。
- 大量の情報に基づく知識で質問に答えられるようになったので、誰でもいろいろな用途に使えます。
- 会話の往復ができるので、関連情報を伝えたり複雑な指示も出せるようになりました。
次の最終回では、進化したAIのこれからについてまとめます。
「第7章 AIのこれから」に続きます。
-
厳密な定義はないのですが、第4章でご紹介したような言語モデルに対して、調整する値の数と調整に使うデータ量、そして調整のための計算量を大規化したものを「大規模言語モデル」(LLM:Large Language Model)と呼びます。 ↩
-
大規模化すればするほど性能が上がるという法則を「自然言語モデルのスケーリング則」(Scaling Laws for Neural Language Models)と呼びます。ただし、これは「Transformer」(トランスフォーマー)という仕組みにおけるものです。現在の主要な大規模言語モデルはTransformerをベースにしていますが、そうではないものには当てはまらない可能性もあります。 ↩
-
ここでのご説明は2020年に発表された「GPT3」(Generative Pre-trained Transformer 3)と呼ばれる一昔前の仕組みの特性です。 ↩
-
ここでの説明は「InstructGPT」という仕組みの調整方法です。 ↩
-
このように、既存の仕組みに対して追加のデータで振る舞いを調整することを「ファインチューニング」(fine-tuning)と呼びます。 ↩
-
この調整では、これまでの例のように理想の出力を使うのではなく、結果の良し悪しの判定結果しか使いません。このように結果の良し悪しから正しい結果を出力できるように調整する方法を「強化学習」(RL:reinforcement learning)と呼びます。 ↩
-
このように、人の判定結果を使って強化学習する方法は「人間のフィードバックによる強化学習」( RLHF:Reinforcement Learning from Human Feedback)と呼ばれます。 ↩
-
機械学習やファインチューニングでLLMを調整するのではなく、文章で指示して調整することを「インコンテキストラーニング」(In-Context Learning)と呼びます。 ↩
-
LLMの性能向上により、LLMの機械学習やファインチューニングで使っていない情報(たとえば最新の情報や社内情報)も、インコンテキストラーニングで与えるとそれに基づく回答ができるようになりました。インコンテキストラーニングは機械学習やファインチューニングよりも簡単なので、外部のデータベースから情報検索してインコンテキストラーニングでLLMに与えて回答生成させる「RAG」(Retrieval-Augmented Generation)とよばれる手法が注目されています。 ↩