033 AI屋さんの　マルチモーダル出力　LLMにトークン全文入力　Gemini

Last updated at 2025-02-09Posted at 2025-02-05

マルチモーダルLLMの　出力もマルチモーダル開始ですね。
知らぬ間に始まっていました。
薄らお知らせがあって、全く気づきませんでした。
LLM業界も　雨後の筍　目が離せません。

音声ファイルも画像ファイルも　文字のプロンプトだけで
LLMが直接作ってくれます。
音声ファイルは、英語・日本語　混在でもokです。
声色も感情移入バッチリで、声優さんもビックリです。
画像も複数枚、同時に作成してくれます。

LLMひとつで、別の画像生成AIも音声合成AIも無しでいけそうです。
base64で出力されるので、プロンプトはトークン満杯です。

まずは、試験運用版で、

　マルチモーダル　入力（文字、音声、画像、動画）
　マルチモーダル　出力（文字、音声、画像）

完成です。おめでとうございます。

ー続くー