2023年はChatGPTの年
機械学習や自然言語処理を扱っている界隈、それに限らずテクノロジーの世界において、2023年はChatGPTの年だったと言っても大きな疑念を抱く方はそれほどいないと思います。それほどまでに、年初からのChatGPTは勢いのあるものだったと思い出され、しかし同時に、OpenAIは当初の予想よりも苦戦しているという一年でもありました。この2023年、一応のAIエンジニア(NLPer、1)としてChatGPTを利用した開発をし続けてきた者として、今年のChatGPT旋風に感じたことを振り返ってみます。
年末年始のざわつき
そもそも、ChatGPTの中核をなすGPT-3というLLM(大規模言語モデル)自体は、去年(2022年)の夏には存在していたものでした。当時を思い出すと、NLPerをフォローしているTwitter(現X)でその名称を目にすることはあったものの、いくつかあるLLMのうちのひとつ、という扱いだった記憶があります。
ところが2022年末頃、このGPT-3にRLHF(Reinforcement Learning from Human)という方法で対話に最適化された流暢性を獲得させ(この過程で莫大なデータセットを構築するために、ケニアの労働者が労働搾取されたことがメディアで問題視されたこともありました)、さらにチャットUIというUXを与えられたことでアップグレードされたChatGPTが登場したのでした。
もともとの性能の良さが対話(=おしゃべり)性能の獲得によって発露し、またSNSでその優れた応答例、創造性の高いアウトプットがある種目新しさをもって公開されたことでバズり続け、おまけに医師国家試験やら大学試験やらに合格する性能というニュースも流れたため、特に1月の盛り上がりは大きなインパクトのあるものでした。研究界隈でも、例えば3月の自然言語処理学会では急遽、ChatGPTに関するパネルセッションが設けられ、多種多様な自然言語処理研究テーマのベンチマークとしてChatGPTが置かれるようになります。ちなみにGoogleは2022年末の早い段階でコードレッド(事業の非常事態宣言的なもの)を出しています。
(ただし個人的な実感としては、タイミング的には学会後に発表され、一部の開発者とユーザーが使えるようになったGPT-4こそがより革新的な性能を持ち、既存の自然言語処理技術がその意義を根本的に問われるようになったと感じています。イメージとしては、GPT-3の読解・作文能力が中学生レベルだとすればGPT-4は大学生レベルくらいの差があります)
チャットUIの限界
しかし、上記でも書いた通り、ChatGPTは年中盤からその勢いをやや落とします。少なくとも、当初の勢いでは感じるところもあった、Googleをすぐさま脅かすかというところにまでは到達していないようにみえます。爆発的な流行をみせたものがその後落ち着くというのはよくあることではありますが、それだけに止まらないひとつの理由の想像としては、ChatGPTに勢いをもたらしたチャットUIというものが、逆に多数のユーザーにとって利用のハードルとなっていることがあるのではないでしょうか。
チャットUIは、既に何かを課題として認識していて、それを既に質問として言語化できているユーザーにとってはとても便利なものです。しかし、自分が何に困っているのかを課題設定できていて、さらに質問に整理するプロセスまで完了している、という状況まで到達するのは意外と難しいものです。少なくないユーザー(自分を含め)は、課題は感じていてもせいぜいキーワードレベルでしか認識できておらず、ChatGPTのページを開いても、何をどう聞けばよいのかとそこで止まってしまうことがあるのではないかと感じています。(その対策なのか、ある次点からChatGPTのページには質問文のサンプルが表示されるようになりました)
まだ発揮されていないChatGPTのポテンシャル
このように、チャットUIを通したChatGPTには課題を感じるものの、GPT-4(あるいはGPT-3)の性能は(少なくとも自然言語処理を10年近く扱ってきた自分にとって)めざましいものがあり、これは今以上に普及され得るポテンシャルを持っているという実感があります。それは一般に認識されている「生成AI」としてのアウトプット性能ではなく、むしろ人間の指示を読解するインプット性能のほうにより汎用的な可能性を感じます。
ChatGPTの凄さのひとつのポイントは、今までの自然言語処理技術が苦手としていた「常識」「言語における暗黙の了解」を扱えている(=あたかも理解しているかのように応答できる)ということです。例えば、自然言語処理に関心がある方に自分がよく薦めている書籍『働きたくないイタチと言葉がわかるロボット』(川添愛著・朝日出版社)の中に、機械が答えることが難しい問いの例があります。
フクロウのフク子さんは居間で新聞を手に取り、台所を通って、仕事部屋へ行きました。
新聞は、今どこにあるでしょう?
私の解釈では、この問いに機械が答える難しさとして
- 「手に取る」というのがこの場合、ただ手に取ってその場に戻すわけではなく(=前後の文脈によってはその場に戻すこともあることを知っていて)
- 新聞というものの使い道を考えると、台所で手放すより仕事部屋で扱う蓋然性のほうが高い
という常識の考慮、があると考えています。もしChatGPTの登場以前に、こうした考慮を汎用的に行えるシステム、あるいはモデルを開発してほしいと私が言われたとしたら、まずその難しさをどうにかして説明して理解してもらって、何かの代替手段を捻り出すことに腐心していたと思います。
この問いに対してChatGPT(GPT-4)は、
ChatGPT: 新聞は仕事部屋にあるでしょう。
と、あたかも上記のような常識を踏まえているかのように明確に回答できます。世の中でAI(機械)を介在させたサービスを構築したいと考えたとき、それがユーザーからの直接の入力であれサービス設計者の何か要望であれ、突き詰めていくとこうした常識の処理であったり、逆に曖昧なインプットを扱う処理に何かしら突き当たるということが多いのです。
普及への展望
上述の通り、多くのユーザーがチャットUIからChatGPTを使いこなすのには依然ハードルがあると考えられる一方、社会における(ウェブ、リアルを問わない)様々なサービス提供者がその品質向上、あるいはコスト削減のために、テクノロジーとしてのChatGPTを必要とするシーンは大きく広がっていると考えています。その実感のもとには、私自身が今までこうしたニーズを依頼され、既存技術による実現性とコストの側面から代替手段を提案するケースが多かったことがあります。
サービス提供者(依頼者)のラフなアイデアとして「こんなときにはこうしてほしい」という理想の挙動があったとします。彼らは自然言語処理や機械学習の専門家ではないため、それがどのようにして実現できるか、あるいはそもそもどのくらい可能性があるかのモノサシを持っておらず、最初のヒアリングではそれをそのままニーズとして受け取ります。AIエンジニアがそのアイデア実現に向けてまず取り組むべきことのひとつは、そのアイデアを機械が認識、処理できるタスクへと分割し、それぞれの実現可能性を見積もることです。しかしながら、全体の実現性は個々の実現性の掛け算となるので、どこかに性能のボトルネックが存在すると全体の実現性も低下してしまいます。また、もし可能だと判断できる場合においても、それぞれタスクでは開発コストのほか、データ収集コスト見積られていました。
この点において、ChatGPTを介在させると、各タスクの実現性が向上するだけでなく、複雑な処理を容易に記述できることでタスクの粒度が大きくなり、タスク掛け合わせによる実現性低下を軽減することができます。言い換えると、本実装までには更なる検討が必要なものの、既存技術では複雑すぎて難しそうだと感じていたニーズに対しても、工夫次第では実現方法を考案できるのではないかと思える範囲が広がったように感じられるのです。
(ChatGPTの使い道はテキスト生成に限りません。6月に追加されたFunction Calllingをうまく活用することで、ChatGPTによる読解力の恩恵を受けながら、信頼性の高いアウトプット=例えば任意の選択肢からのチョイスを出力し、プロダクトの新規開発を促進させることが可能です。詳細は過去の記事をご覧ください)
DevDay と 2024年
11月、高速で低価格なGPT-4-Turbo、画像を扱えるGPT-4-Visionなど、エンジニアリングを通じたChatGPTの活用をいっそう進められそうな機能が、DevDayで発表されました。汎用的な画像認識+自然言語処理の組み合わせは、ますますChatGPTのサービス利用を促進するのではないかと思います。
2022年末に今年を予想することが難しかったように、2024年にどんな革新が起こるのかを想像するのは困難ですが、少なくとも現在の延長線上だけで考えてみても、例えばGPT-4の開放が進み、一般ユーザーが真のChatGPTの能力に接する機会が増えてくる、といった展望がありそうです。こうしたことが起きれば、世の中のChatGPTに対する認識も一歩前進するでしょう。GPT-4-Turbo(のStable Version)の公開による、自然言語処理が活用されるシーンの増加も期待したいところです。そして、GPT-5がもし発表されるとしたらどのような性能になるか、予想できなくも期待をかけられずにはいられないところです。
-
研究者ではないですが、機械学習まわりは15年くらい継続してやっていて、自然言語処理でも最近のNAACLやCOLINGに主著、共著で通っているのでNLPerと称してもそこまで間違いではない…はず ↩