俺の2025年 Advent Calendar 2025

生成 AI でのクリエイティブを考える〜Text2（Text 以外）

Posted at 2025-12-14

本稿は 2025 年アドベントカレンダー Day 10 の記事です。

Day 9 の続き：Text 以外のモダリティ

Day 9 では、文章生成（Text2Text）におけるコンテキストエンジニアリングの話をした。AI に文脈を渡すことで、セッションをまたいでも品質を維持できるようになる、という内容だ。

では、文章以外のモダリティではどうだろう？

今日は、画像生成・音楽生成・動画生成について、私が実際に使っているツールと、まだ手を出せていない領域について正直に書いてみたい。

画像生成の変遷（私の場合）

画像生成 AI は、この 1〜2 年で選択肢がかなり増えた。

私の場合、最初は Windows Copilot で画像を生成していた。Microsoft のエコシステムに乗っかれるのが楽だったし、画風も好みだった。ちょっとしたアイキャッチ画像を作るには十分だった。

その後、NanoBanana3Pro が出るまではこれをメインに使っていた。

今は Gemini や NotebookLM を使うことが多い。特に NotebookLM は、ドキュメントを読み込ませた上で「この内容を図解して」と言えるのが便利だ。グラフィクスの品質もかなり上がってきた。

そして最近は AntiGravity というツールを使っている。記事に画像をつけるハードルがぐっと下がった。……と言いたいところだが、現在リミット中なので今日の記事には画像がない。残念。

記事に画像をつけやすくなった

画像生成 AI が便利になって、一番変わったのは記事に画像をつけるハードルだと思う。

以前は、記事に図を入れようと思ったら、自分で描くか、フリー素材を探すか、有料素材を買うかしかなかった。どれも面倒だった。

今は「こういう図がほしい」と言えば、それっぽいものが出てくる。もちろん、一発で完璧なものは出ないことも多い。でも、叩き台があるだけで全然違う。

文章生成のときと同じだ。ゼロから作るより、たたき台を修正する方が楽。

音楽生成はまだこれから

音楽生成については、Suno AI を使っている。使っている、と言っても、まだ本格的に運用できていない。

正直なところ、音楽制作に割く時間がまだ取れていない。

Suno AI 自体は面白いツールだ。テキストで「こういう雰囲気の曲がほしい」と言えば、それっぽい曲が生成される。BGM として使えそうなものも多い。

ただ、音楽は文章や画像と違って、「ちょっと修正して」が難しい。生成された曲の一部だけ変えたい、というのがやりにくい。この辺りは、まだ発展途上なのかもしれない。

来年はもう少し時間を取って、本格的に触ってみたいと思っている。

来年は動画生成に挑戦したい

そして動画生成。これは完全に「来年やりたいこと」枠だ。

2024 年後半から 2025 年にかけて、動画生成 AI の話題が増えてきた。Sora、Runway、Pika Labs……名前だけは聞いている。でも、まだ自分では触っていない。

音楽生成と組み合わせて、ショート動画を作れたら面白そうだな、と思っている。研修の導入動画とか、ちょっとしたプロモーション動画とか。

ただ、これも時間との戦いだ。本業の合間にどこまでできるか。

Text2Text のやり方は、そのまま使えない

Day 9 で書いたコンテキストエンジニアリングの話を思い出してほしい。文章生成では、AI に文脈を渡すことで品質が上がった。過去の記事の設計書を参照させたり、ルールファイルを読み込ませたり。

じゃあ、画像生成でも同じことができるか？

……残念ながら、そのままでは使えない。

たとえば、画像生成で「前回と同じ画風で」と言っても、前回の画像を覚えていないことが多い。「このキャラクターを描いて」と言っても、キャラクターの設定をどう渡せばいいのか、まだ標準的なやり方がない。

音楽生成はもっと難しい。「前回の曲と同じ雰囲気で」と言っても、「雰囲気」を言語化するのが大変だ。BPM やキー、楽器構成……言葉にできる部分はあるけど、「なんとなくこういう感じ」は伝えにくい。

つまり、モダリティごとに、コンテキストの渡し方を考え直す必要があるということだ。

ただ、近づいてきている感覚はある

とはいえ、最近のツールを触っていると、Text2Text のプロンプトの書き方に寄ってきている感覚がある。

Gemini の画像生成は、かなり自然言語で指示できるようになった。「青空の下で、白いワンピースを着た女の子が走っている、水彩画風」みたいに書ける。

NotebookLM は、ドキュメントを読み込ませた上で「この内容を図解して」と言える。これはまさに「コンテキストを渡す」発想だ。

音楽生成の Suno AI も、歌詞やジャンルをテキストで指定できる。

テキストでの指示が、他のモダリティにも広がってきている。この流れが進めば、Text2Text で培ったコンテキストエンジニアリングのノウハウが、他のモダリティにも応用できるようになるかもしれない。

来年はこの辺りを探っていきたい。

Day 9 と Day 10 で、生成 AI でのクリエイティブについて書いてきた。

正直、まだ「できていること」より「やりたいこと」の方が多い。でも、それでいいと思っている。

全部完璧にやろうとしたら、何も始められない。まずは一つ、触ってみる。そこから広げていく。

あなたは、どのモダリティから始めてみたいですか？

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up