はじめに
本記事では執筆時点で知名度の高いマルチモーダルAIを紹介します。
各マルチモーダルAIの名称及び簡単な概要を書いてますが、具体的な利用方法や実装方法、利用制限といった詳細な情報は公式ページを参照いただければと思います。
紹介するマルチモーダルAI一覧
- GPT-4V
- Gemini
- MGIE
- LLAVA
- tsuzumi
GPT-4Vについて
OpenAIが開発したマルチモーダルAIであり、テキストによる対話に加えて、画像データに対するテキスト応答も得ることができます。
画像内容の説明をさせることや、デザインに対する改善案の提案、画像情報からソースコード案を提案させるといった、視覚的な情報をそのまま活用できるユースケースで活用が期待できます。
- 開発元:OpenAI社(https://openai.com/)
- 日本語:可
- 入力データ種類:画像、音声、テキスト
- 出力データ種類:テキスト
Geminiについて
Googleが開発したマルチモーダルAIであり、テキストによる対話に加えて、画像や動画に対するテキスト応答や画像生成を行うことができます。また、GmailやGoogle MapなどのGoogleサービスとの連携ができるため、各種Googleサービスの情報を活用したユースケースを実現することができます。
- 開発元:Google DeepMind(https://deepmind.google/technologies/gemini/#introduction)
- 日本語:可(画像生成では不可)
- 入力データ種類:画像、音声、テキスト、動画
- 出力データ種類:テキスト
MGIE(MLLM-Guided Image Editing)について
AppleとUCSBの共同で開発されたマルチモーダルAIであり、画像とテキストを入力として、画像編集をすることができます。
画像の加工を専門的な知識を用いらずに、感覚的な指示で実現することができるため、クリエイティブな作業の効率化や、多くの人がクリエイティブな作業に携わることができるようになることが期待できます。
- 開発元:Apple、UCSB
オープンソースとしてGitHubで公開(非商用)(https://github.com/apple/ml-mgie) - 入力データ種類:画像、テキスト
- 出力データ種類:画像
LLAVA(Large Language and Vision Assistant)について
Microsoft、ウィスコンシン大学マディソン校、コロンビア大学の研究チームが開発したマルチモーダルAIであり、画像とテキストを入力として、テキスト応答が得られます。
画像×テキストを理解するモデルとして高精度の応答が可能なことに加えて、ローカル環境で動かすことができるため、個人でAIを学習させるなど、AI研究を活性化することが期待できます。
- 開発元:Microsoft、ウィスコンシン大学マディソン校、コロンビア大学
オープンソースとしてGitHubで公開(https://github.com/haotian-liu/LLaVA) - 日本語:可
- 入力データ種類:画像、テキスト
- 出力データ種類:テキスト
- 学習:可
tsuzumiについて
NTTが開発した、日本語と英語に対応した軽量LLMであり、特に日本語を得意としています。
マルチモーダルとして視覚読解にも対応しており、今後もモーダル拡張を予定しています。
軽量LLMのため、オンプレミス環境やNTTグループのプライベートクラウドで利用が可能であり、企業内データ等のクローズドなデータを外部に出さずに安全に活用することができます。
- 開発元:NTT(https://www.rd.ntt/research/LLM_tsuzumi.html)
- 日本語:可
- 入力データ種類:画像、テキスト
- 出力データ種類:テキスト
- 学習:可
さいごに
近年のAIの技術の進歩スピードはとても速く、マルチモーダルなAIの数も増えていき、私たちの生活にも浸透し始めています。
これからもその進歩は進んでいき、より多彩なAIが産まれてくることが期待されます。