【速報】Geminiで音楽生成が可能に！最新モデル「Lyria 3」でAI楽曲制作を試してみた

Posted at 2026-02-28

はじめに

2026年2月にリリースされたGeminiの新機能「Create Music（Lyria 3）」を試してみました。
LLMとしてのテキストや画像の生成にとどまらず、とうとうGeminiのチャット画面から直接「音楽」まで作れるようになったんですね。。
しかも、テキストだけでなく、画像や動画を読み込ませてそこからインスピレーションを得た音楽を生成できるらしいので、今回はそれぞれのパターンを実際に試してみました。
詳しい仕様や情報は公式ページをご確認ください。

Lyria 3で何ができるのか？（主な特徴）

マルチモーダル生成
- text-to-Music: ジャンル、ムード、テンポなどをテキストで指定して生成
- Image/Video-to-Music: 写真や動画をアップロードして、その場の雰囲気に合った曲を生成（ここが個人的に一番面白いポイントです！）
一気通貫のパッケージ生成: わずか数秒で「30秒の楽曲」「歌詞」「ボーカル」、さらにカバーアート（ジャケ写）までがセットで出力されます
高度なコントロール: ボーカルの性別、声質（ハスキー、クリアなど）、BPMなどの細かい指定もプロンプトから可能です

実際に曲を作ってみる

Step 1: Geminiの「音楽を作成」ボタンで呼び出し。

Step 2: 指示を出す（例：90年代風のシティポップ、女性ボーカル、夜のドライブに合うエモーショナルな曲）

テキストプロンプト

この記事で作成した実際の楽曲は以下でポストしています。
（動画が埋め込めないから、Xのアカウント作ってしまった）

画像プロンプト

バーであることは認識してくれているみたいです。
ちょっとイメージとは違うかもしれない

プロンプトを付け足して、再生成してみた。
今回は歌詞なしのBGM用

一気にイメージ通りになりました！こんなにすごいアウトプットを出してくるのに、「練習します」というGeminiの謙虚な姿勢は見習わないといけないですね。。

エンジニア・クリエイター目線のポイント

SynthIDによる電子透かし

生成されたすべての楽曲には、Googleの電子透かし技術「SynthID」が埋め込まれています。これにより、AI生成物であることが技術的に識別可能になっており、ディープフェイク対策などが施されています。

著作権への配慮とセーフティ

特定の既存アーティスト名を指定して「〇〇風に歌って」と指示しても、模倣を防ぐガードレールが機能します。あくまで「スタイル」としての解釈に留まるよう設計されている点は、クリエイターが安心して使うための重要なポイントです。

APIの可能性

現状はGeminiのUI上での提供ですが、今後Google Cloud (Vertex AI) や Gemini API でLyria 3が叩けるようになれば、自作アプリのBGM自動生成機能など、開発の幅が大きく広がりそうです。

使ってみた感想と制限事項

圧倒的な手軽さとシームレスな体験

音楽の専門知識（コード進行やDTMの操作など）がゼロでも、日本語のプロンプト一つで「それっぽい」ハイクオリティな曲が数秒で完成します。他の音楽生成AIサービスを立ち上げることなく、普段使っているGeminiのチャット上で完結するのは非常に体験が良いです。

マルチモーダルの真骨頂

画像や動画を投げて「これに合う曲を」という体験は新鮮です。テキストで表現しきれないニュアンスを画像で伝えられるのは、Geminiならではの強みだと感じました。

制限事項・気になった点

尺の短さ

現時点では「30秒」の生成に制限されています。Aメロ〜サビまでフル尺の楽曲を作りたい場合は、まだ物足りなさを感じるかもしれません。

意図のすり合わせ

画像入力のみだと、AIの解釈と自分のイメージにズレが生じることがあります（今回実験したバーの画像のように）。イメージに近づけるには、テキストでの補足（BGM指定、ジャンル指定など）が必須になりそうです。

期待される活用シーン

30秒という尺を逆手に取れば、以下のような用途ですぐに実戦投入できそうです。

YouTube ShortsやTikTokなど、短尺SNS動画のオリジナルBGM
プレゼン資料や企画のプロトタイプに添えるイメージ音楽
友人への誕生日メッセージ動画のちょっとした味付け

まとめ

これまでは「文章を書く」「絵を描く」といった用途が主だった生成AIですが、今回のLyria 3の搭載により、ついに「音楽」の分野でも本格的な大衆化（民主化）が始まったと感じます。

現状は30秒の制限などもありますが、今後のアップデートで「長尺化」や「ボーカルの多言語対応（より自然な日本語の歌唱）」が進めば、コンテンツ制作のワークフローを根底から変えるポテンシャルを秘めています。

エンジニアリングの観点でも、今後API経由でこの音楽生成能力をどうアプリケーションに組み込んでいくか、非常にワクワクする技術でした。気になった方は、ぜひ一度GeminiでDJ気分を味わってみてください！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up