033 AI屋さんの マルチモーダル出力 LLMにトークン全文入力 Gemini
マルチモーダルLLMの 出力もマルチモーダル開始ですね。
知らぬ間に始まっていました。
薄らお知らせがあって、全く気づきませんでした。
LLM業界も 雨後の筍 目が離せません。
音声ファイルも画像ファイルも 文字のプロンプトだけで
LLMが直接作ってくれます。
音声ファイルは、英語・日本語 混在でもokです。
声色も感情移入バッチリで、声優さんもビックリです。
画像も複数枚、同時に作成してくれます。
LLMひとつで、別の画像生成AIも音声合成AIも無しでいけそうです。
base64で出力されるので、プロンプトはトークン満杯です。
目次
まずは、試験運用版で、
マルチモーダル 入力(文字、音声、画像、動画)
マルチモーダル 出力(文字、音声、画像)
完成です。おめでとうございます。
ー続くー