036 AI屋さんの マルチモーダル出力 LLMにトークン全文入力 GEMINI2.0公開
画像生成は、一般公開ですね。
音声合成は、まだかな。
画像の保存は若干ややこしいですが、
しばらくすれば、情報も増えそうです。
AI studio では日本語で画像生成できますが
API経由だと 英語(?)のみです。
でもAPI経由で 日本語も画像生成できた?
chunk.candidates[0].content.parts[0].inline_data.dataを
base64からバイナリに変換してpngファイルとして保存
規制が厳しい(?)ので、風景専門です。
まあ、これからですね。
思った通りの画像生成出来るまでには、
手綱捌きが難しそうです。
ハズレが続くと、試行錯誤のコストが心配です。
これで日本語対応と言えるか?
エージェントさんにも聞いてみた。
画像ファイルに無事保存完了です。
細かなコードは、エージェントさんが教えてくれます。
自ら検索キーワードを生成して、
自動で検索した結果から、
複数のサイトを開いて全部読み込んで
その内容も踏まえて、大規模言語モデルが回答してくれます。
勝手にググるエージェントLLMは、本当に便利です。
日本語プロンプト
"画像生成、イラスト、水彩風、廃墟, 高層マンション、ニューヨーク、マンハッタン、セントラルパーク、自由の女神、 背景: 窓が開け放たれた明るい部屋で、キラキラと舞うホコリ"
全文入力済み「吾輩は猫である」LLM に
小説の内容にあった雰囲気の
画像生成用のプロンプトを作ってもらって、
小説の装丁・挿絵を画像生成してみます。
目次
今回も無事にwebAPI経由で画像を作成できました。
保存もできました。
次回は実装編です。
おめでとうございます。
ー続くー