こんにちは!株式会社HIBARIの中野です。
皆さんは画像生成AIを使用していますか?
その中で以下のようなことを思ったことはありませんか?
「欲しい画像に近づけるために、長いプロンプトを書くのが面倒...」
「『プロンプトエンジニアリング』を頑張っているのに、なかなか思った通りの構図にならない...」
そんな悩みを抱えている方に朗報です!
Google Labsでひっそりと公開されている実験ツール「Whisk」が、これまでの画像生成の常識を覆そうとしています。
今回は、「言葉」ではなく「画像」を組み合わせて新しい画像を錬成する、新感覚のツール「Whisk」をご紹介します。
Whiskとは?
Whiskの使い方は驚くほどシンプルです。画面にはテキスト入力欄の代わりに、3つの画像をセットするスロットがあるだけです。
ここに画像をドラッグ&ドロップすると、AIがそれぞれの要素を抽出して「ブレンド」してくれます。
- モデル: 「何を描くか」。自分のペットや、描きたいキャラ、商品など。
- 背景: 「どこにいるか」。宇宙、森の中、サイバーパンクな街など。
- スタイル: 「どんなタッチか」。油絵、ピクセルアート、実写風など。
たったこれだけです。
これだけで、例えば「うちの猫」が「宇宙船にいて」「ドット絵風」の画像を作成することができます。
これらの素材となる画像は自分の持っている画像でも、その場でプロンプトから生成することも可能です。
技術背景
なぜ画像を置くだけで、こちらの意図が伝わるのでしょうか。
実はこの裏側では、Googleの最新モデル「Gemini」と「Imagen 4」が連携しています。
- Geminiが画像を見る: アップロードされた画像を見て、「これは猫だ」「これは悲しい雰囲気だ」と言語化して理解します。
- Imagen 4が描く: その理解を元に、最高品質の画像生成モデルが絵を描き出します。
つまり、私たちが一生懸命プロンプトを書かなくても、AIが私たちの代わりに画像を読み取って、超高精度のプロンプトを裏で書いてくれているようなものです。これがWhiskの「直感的な操作」の正体です。
実際に使ってみた
今回は「猫が宇宙でお昼寝をしているドット絵」の作成を目指しました。
元画像の用意
まずは画面左側のサイドバーを開き、「テキストを入力」から素材となる画像をそれぞれ生成しました。
使用したプロンプトは以下の通りです。
これで、「猫(モデル)」「宇宙(背景)」「ドット絵(スタイル)」にしました。
合成画像の生成
これら3つの画像をスロットにセットして生成ボタンを押しました。追加のプロンプトは入力していません。
結果は以下の通りです。
いかがでしょうか。当初の目標である「猫が宇宙でお昼寝をしているドット絵」が一発で作成できました。
スタイルの変更
次にスタイルを変更しました。
使用したプロンプトは以下の通りです。
この浮世絵をスタイルとして追加して生成した結果がこちらです。
先ほどのものと変わらない構成で、浮世絵のようになりました。
画像の追加
モデルは2つまで追加できるので、以下の画像をモデルとして追加して合計4枚で生成してみました。
このサボテンをモデルとして追加して生成した結果がこちらです。
スタイルはドット絵のものに戻しました。
先ほどの画像の世界観を崩さず、自然にサボテンが登場しました。
このように「後から要素を足す」という修正も、画像をポンと置くだけで簡単に行えます。
ビジネスでの活用方法
Whiskの直感的な操作性と高い表現力は、個人の創作活動だけでなく、ビジネスシーンにおいても大きな可能性を秘めています。具体的には、以下のような場面での活用が期待できます。
- プロダクト企画: 新規商品のコンセプトイメージを複数の参考写真から素早く合成し、社内合意形成を加速できます。
- 広告・販促: キャンペーンごとに背景やスタイルを差し替えたクリエイティブを大量生成し、A/Bテストの素材作成を自動化できます。
- EC・カタログ: モデル画像と背景素材を組み合わせてシチュエーション違いの写真を量産し、撮影コストを抑えつつビジュアルの一貫性を保てます。
- クライアント提案: 参考画像を組み合わせた「簡易モック」をその場で生成し、提案フェーズのスピードと説得力を高められます。
- IP・ブランド管理: モデルスロットに自社キャラクターを設定すれば、ブランドトーンを崩さずに多様な素材を展開できます。
他の生成AIとの比較
現在、多くの画像生成AIが登場していますが、Whiskはそれらとどのように異なるのでしょうか。主要な生成AIツールと比較した際の特徴をまとめました。
| ツール名 | 特徴・強み | Whiskとの違い |
|---|---|---|
| Midjourney / DALL·E | 強力なテキストプロンプト中心の生成で細かな指示が得意。 | Whiskは「画像を置くだけ」で意図を伝えられるため、非言語的なニュアンス共有に強みがあります。 |
| Adobe Firefly | 商用利用向けの権利クリアが特徴。 | Whiskは研究ラボ発の実験的ツールで、現状はラボ利用前提だが直感的なUIで試行錯誤の速度が速いです。 |
| Stable Diffusion系 | ローカル実行やモデル改変でカスタマイズ性は高いものの、チューニングやプロンプト設計が必要。 | Whiskはモデル・背景・スタイルの3スロットでセットアップが完了し、学習コストが低いです。 |
まとめ
今回はGoogle Labsの新しい画像生成ツール「Whisk」をご紹介しました。
実際に使ってみて感じた最大のメリットは、「言語化できないイメージ」を形にできることです。
これまでは「どんな雰囲気か」を言葉にする必要がありましたが、Whiskなら「こんな感じ!」という参考画像を見せるだけで、AIが意図を汲み取ってくれます。
- プロンプト入力に疲れた人
- 手持ちの落書きや写真を素材に遊びたい人
- 直感的な操作でアイデア出しをしたいクリエイター
こういった方には特におすすめのツールです。
現在はGoogle Labsにて無料で試すことができますので、皆さんもぜひ「画像を混ぜる」楽しさを体験してみてください。
Whiskで、新しいクリエイティブの扉を開いてみませんか?
この記事は株式会社HIBARIのテックブログからの転載です。
元記事はこちら:自社ブログ







