036 AI屋さんの　マルチモーダル出力　LLMにトークン全文入力　GEMINI2.0公開

Last updated at 2025-03-16Posted at 2025-03-15

画像生成は、一般公開ですね。
音声合成は、まだかな。

画像の保存は若干ややこしいですが、
しばらくすれば、情報も増えそうです。

　AI studio　では日本語で画像生成できますが
　API経由だと　英語(?)のみです。
　でもAPI経由で　日本語も画像生成できた？

　chunk.candidates[0].content.parts[0].inline_data.dataを
　base64からバイナリに変換してpngファイルとして保存

　規制が厳しい(?)ので、風景専門です。

まあ、これからですね。
思った通りの画像生成出来るまでには、
手綱捌きが難しそうです。
ハズレが続くと、試行錯誤のコストが心配です。

これで日本語対応と言えるか？

エージェントさんにも聞いてみた。

画像ファイルに無事保存完了です。
細かなコードは、エージェントさんが教えてくれます。
自ら検索キーワードを生成して、
自動で検索した結果から、
複数のサイトを開いて全部読み込んで
その内容も踏まえて、大規模言語モデルが回答してくれます。
勝手にググるエージェントLLMは、本当に便利です。

動物も得意っぽいです

日本語プロンプト
"画像生成、イラスト、水彩風、廃墟,　高層マンション、ニューヨーク、マンハッタン、セントラルパーク、自由の女神、 背景: 窓が開け放たれた明るい部屋で、キラキラと舞うホコリ"

全文入力済み「吾輩は猫である」LLM に
小説の内容にあった雰囲気の
画像生成用のプロンプトを作ってもらって、
小説の装丁・挿絵を画像生成してみます。

今回も無事にwebAPI経由で画像を作成できました。

　保存もできました。
　次回は実装編です。

おめでとうございます。

ー続くー