LLM(大規模言語モデル)からマルチモーダルの変遷
2022年11月にChatGPTが発表されてから、生成AIやLLM(大規模言語モデル)という用語も一般的に使われてきました。
ChatGPTの発表は衝撃的で、筆者もこれまで教師あり学習によるデータ予測や画像認識を実装してきましたが、データサイエンティストでなくてもAIモデルを利用する時代がやってきたと痛感させられました。
ChatGPTでどこまでできるのかに興味を抱き、筆者は2023年の「IBM Community Japanのナレッジモール研究」で「ITシステム導入の提案書評価」をChatGPTに行ってもらう研究もしてきました。
そんな中2023年の後半からは「マルチモーダル」という技術が発展し、これまで「スクリプト」と呼ばれる文章中心のインプットだったものが、文章+α(画像、音声など)をインプットに、回答を返してくれるようになりました。
この記事では、LLM(大規模言語モデル)からマルチモーダルに技術の進展がされることで、どのようなことが可能になるか、活用方法とともに紹介します。
なお、LLMやマルチモーダルを利用するためのサービスは多数ありますが、この記事ではChatGPTを使ってご紹介します。
LLM(大規模言語モデル)
LLM(大規模言語モデル)とは、生成AIの一種です。
生成AIはネット上などに存在する膨大なデータを学習することで、テキスト、画像、音声などのデータを自律的に生成できるAI技術です。
LLMは、その一種であり、膨大なテキストデータに特化してディープラーニングされた、自然言語処理(NLP)に特化したモデルです。
2022年11月にChatGPTが発表されましたが、ChatGPTはLLMを利用するためのサービスです。あまり意識することはないかもしれませんが、ChatGPTの中ではGPT-3.5やGPT-4などのLLMモデルを選択でき、精度やレスポンスの速度、無償/有償に違いがあります。
LLMの課題
ChatGPT含むLLMのサービスは、文章生成の分野で大きな影響を与えました。
しかし、LLMには課題もあります。
普段、私たちの暮らしでは文章だけで何かを伝え、文章だけで答えてもらうということは少ないです。
房総に旅行した例(LLM編)
筆者は房総で「なめろう」という料理を食べましたが、その料理をそもそも知らなかったとします。
そのため、ChatGPTに次のように質問しました。
GhatGPTへのインプット
私は房総にいます。房総でアジが細かく切られて葉っぱの形に盛られた料理を食べました。この料理について教えてください。
GhatGPTからのアウトプット
ChatGPTは正確な答えを返してくれました。
ただし、自分が食べた料理をこのように文章にして質問する機会は、人を相手にする場合では少ないです。
マルチモーダル
そんな中、2023年の後半からマルチモーダルという用語が広まりました。
また、ChatGPTでも2024年5月からGPT-4oというマルチモーダルに対応したモデルが利用できるようになりました。(注意:無償の場合、利用制限あり)
マルチモーダルとは、複数のインプットに対応した生成AIであり、例えば画像とテキストをインプットとして回答を得たりすることができます。
つまり、スマホで撮った写真と、その状況の説明をするだけで、簡単に質問することが可能となるのです。
房総に旅行した例(マルチモーダル編)
先ほどのなめろうの例を、ChatGPTのGPT-4oモデルで試してみます。
なお、画像は日本交通公社から引用しています。
GhatGPTへのインプット
千葉県で食べたこの料理について教えて
GhatGPTからのアウトプット
画像中心の質問でも、正しく回答されました。
これからは、人間がAIへ質問するために、文章化するという手間を省ける時代がやってくることを期待させてくれます。
そのほかの活用例
ここまで、房総旅行のなめろうを元に活用方法を紹介してきました。
でも、なめろうくらい誰でも知ってるよね?と思われる方もいるかもしれません。
他の活用例として、雑草の名前を教えてもらう例を挙げます。
GhatGPTへのインプット
春によく見かけるこの花の名前を教えて
画像の引用:春日部市
GhatGPTからのアウトプット
結果は、この通りです。
文章だけでは説明が難しいですが、写真と文章によって見事に雑草の名前を知ることに成功しました。
まとめ
2022年11月にChatGPTが発表されてから2年経っておりませんが、ChatGPTの対話型AIの衝撃を受け、2024年になってからはマルチモーダルの衝撃を受けるなど、生成AIはとてつもないスピードで進化が進んでいます。
特にマルチモーダルはまだまだ出始めの技術であり、これからますます進化すると予想されます。
技術の進化をキャッチアップし、今後もお伝えできればと思います。