本稿は 2025 年アドベントカレンダー Day 10 の記事です。
Day 9 の続き:Text 以外のモダリティ
Day 9 では、文章生成(Text2Text)におけるコンテキストエンジニアリングの話をした。AI に文脈を渡すことで、セッションをまたいでも品質を維持できるようになる、という内容だ。
では、文章以外のモダリティではどうだろう?
今日は、画像生成・音楽生成・動画生成について、私が実際に使っているツールと、まだ手を出せていない領域について正直に書いてみたい。
画像生成の変遷(私の場合)
画像生成 AI は、この 1〜2 年で選択肢がかなり増えた。
私の場合、最初は Windows Copilot で画像を生成していた。Microsoft のエコシステムに乗っかれるのが楽だったし、画風も好みだった。ちょっとしたアイキャッチ画像を作るには十分だった。
その後、NanoBanana3Pro が出るまではこれをメインに使っていた。
今は Gemini や NotebookLM を使うことが多い。特に NotebookLM は、ドキュメントを読み込ませた上で「この内容を図解して」と言えるのが便利だ。グラフィクスの品質もかなり上がってきた。
そして最近は AntiGravity というツールを使っている。記事に画像をつけるハードルがぐっと下がった。……と言いたいところだが、現在リミット中なので今日の記事には画像がない。残念。
記事に画像をつけやすくなった
画像生成 AI が便利になって、一番変わったのは記事に画像をつけるハードルだと思う。
以前は、記事に図を入れようと思ったら、自分で描くか、フリー素材を探すか、有料素材を買うかしかなかった。どれも面倒だった。
今は「こういう図がほしい」と言えば、それっぽいものが出てくる。もちろん、一発で完璧なものは出ないことも多い。でも、叩き台があるだけで全然違う。
文章生成のときと同じだ。ゼロから作るより、たたき台を修正する方が楽。
音楽生成はまだこれから
音楽生成については、Suno AI を使っている。使っている、と言っても、まだ本格的に運用できていない。
正直なところ、音楽制作に割く時間がまだ取れていない。
Suno AI 自体は面白いツールだ。テキストで「こういう雰囲気の曲がほしい」と言えば、それっぽい曲が生成される。BGM として使えそうなものも多い。
ただ、音楽は文章や画像と違って、「ちょっと修正して」が難しい。生成された曲の一部だけ変えたい、というのがやりにくい。この辺りは、まだ発展途上なのかもしれない。
来年はもう少し時間を取って、本格的に触ってみたいと思っている。
来年は動画生成に挑戦したい
そして動画生成。これは完全に「来年やりたいこと」枠だ。
2024 年後半から 2025 年にかけて、動画生成 AI の話題が増えてきた。Sora、Runway、Pika Labs……名前だけは聞いている。でも、まだ自分では触っていない。
音楽生成と組み合わせて、ショート動画を作れたら面白そうだな、と思っている。研修の導入動画とか、ちょっとしたプロモーション動画とか。
ただ、これも時間との戦いだ。本業の合間にどこまでできるか。
Text2Text のやり方は、そのまま使えない
Day 9 で書いたコンテキストエンジニアリングの話を思い出してほしい。文章生成では、AI に文脈を渡すことで品質が上がった。過去の記事の設計書を参照させたり、ルールファイルを読み込ませたり。
じゃあ、画像生成でも同じことができるか?
……残念ながら、そのままでは使えない。
たとえば、画像生成で「前回と同じ画風で」と言っても、前回の画像を覚えていないことが多い。「このキャラクターを描いて」と言っても、キャラクターの設定をどう渡せばいいのか、まだ標準的なやり方がない。
音楽生成はもっと難しい。「前回の曲と同じ雰囲気で」と言っても、「雰囲気」を言語化するのが大変だ。BPM やキー、楽器構成……言葉にできる部分はあるけど、「なんとなくこういう感じ」は伝えにくい。
つまり、モダリティごとに、コンテキストの渡し方を考え直す必要があるということだ。
ただ、近づいてきている感覚はある
とはいえ、最近のツールを触っていると、Text2Text のプロンプトの書き方に寄ってきている感覚がある。
Gemini の画像生成は、かなり自然言語で指示できるようになった。「青空の下で、白いワンピースを着た女の子が走っている、水彩画風」みたいに書ける。
NotebookLM は、ドキュメントを読み込ませた上で「この内容を図解して」と言える。これはまさに「コンテキストを渡す」発想だ。
音楽生成の Suno AI も、歌詞やジャンルをテキストで指定できる。
テキストでの指示が、他のモダリティにも広がってきている。この流れが進めば、Text2Text で培ったコンテキストエンジニアリングのノウハウが、他のモダリティにも応用できるようになるかもしれない。
来年はこの辺りを探っていきたい。
Day 9 と Day 10 で、生成 AI でのクリエイティブについて書いてきた。
正直、まだ「できていること」より「やりたいこと」の方が多い。でも、それでいいと思っている。
全部完璧にやろうとしたら、何も始められない。まずは一つ、触ってみる。そこから広げていく。
あなたは、どのモダリティから始めてみたいですか?