AI音楽生成 Google「Lyria 3」を徹底検証！画像・歌詞から音楽は作れるのか？

Last updated at 2026-02-25Posted at 2026-02-25

1. はじめに

AI による音楽生成が急速に進化していますが、Googleの最新音楽生成モデル「Lyria 3」が、Gemini を通じて利用可能となりました。

これまでの音楽生成AIは、抽象的な指示から「それらしい楽曲」を出力することには長けていました。しかし、細かい構成の指定や、画像が持つ繊細なコンテキストの再現、あるいは自然な日本語歌唱のコントロールとなると、なかなかハードルが高いものでした。

本記事では、「指示（ロジック）」、「画像（視覚）」、「歌詞（感性）」という3つのアプローチでLyria 3 の実力を徹底検証します。エンジニアが、この新しい技術をどこまでコントロールできるのか、その現在地をレポートします。

2. Lyria 3とは

Lyria 3 は、Google DeepMind が開発した最新の音楽生成モデルです。主な特徴と制限事項は以下の通りです。

主な特徴：

高品質な生成能力：
複雑な構成を持つ楽曲や、ボーカルの質感を驚くほど自然に生成可能
多様なインプットへの対応：
テキストだけでなく、画像などからも音楽を紡ぎ出すことができる
透明性と安全性：
生成された音声には、AI生成であることを示す電子透かし「SynthID」が埋め込まれており、AI生成物と識別可能

主な制限事項：

対象年齢： 18歳以上のユーザーに限定
生成時間： 1曲あたり最大30秒まで
生成回数： 1日あたりの生成数に上限あり（プランにより異なる）

- （参考サイト） Google DeepMind: Lyria

3. Lyria 3 の可能性を探る：3パターンの徹底検証

特別な開発環境や設定は一切不要です。Gemini さえあれば、誰でもすぐに音楽生成を始めることができます。

【クイックスタート】まずは体験してみたい方へ

まず、Gemini にアクセスします。

Step1：入力エリア下部に表示されている「音楽を作成」を選択する
Step2：提示される候補から好みのトラックを選択する（画像は一部抜粋）
Step3：「送信（＞）」をクリックし、音楽が生成されるのを待つ
これだけで完了です！

図1：Lyria 3 クイックスタートの手順

ここからは、さらに一歩踏み込んで、AI の「理解力」を測るために難易度の異なる 3つのアプローチで格闘した内容をレポートします。

3.1 言語による構造制御：AIを「厳密」にコントロールできるか？

最初の検証は、指定した時間で楽器を増やす「三段階ビルドアップ」です。これが意外と一筋縄ではいきませんでした。

【使用したプロンプト】

30秒の落ち着いたインスト曲を作ってください。指定した秒数での楽器追加を厳守してください
【構成の指示】
・0秒〜10秒：静かなピアノソロ（Solo Piano ONLY）
・11秒〜20秒：ピアノにアコースティックギターを重ねる（Piano and Guitar ONLY）
・21秒〜30秒：さらにサックスを加え、三つの楽器で構成する（Piano, Guitar, and Saxophone ONLY）
全体を通して「大人のゆとり」を感じさせるしっとりとした演奏にし、最後は余韻を持って終わらせてください。

図2-1：指定したプロンプト

【検証結果】

おおよそ期待通りでしたが、「音楽編集のスキルはまだ磨いている最中です」という回答の通り、厳密な指示通りには生成されませんでした。（例えば、ギターの参入タイミングが数秒早まりました）
なお、同じ指示文でも生成するたびに生成される音楽には差がみられます。

図2-2：Gemini の回答と生成された楽曲

【生成された音源】

🎵 生成された音源を聴く（Gemini 共有リンク）

【考察】

はじめは、ボーカルが混入したり、指定時間を超えて、楽器がフライングしたりと苦戦しました。検証の結果、日本語の指示をベースにしつつ、「ONLY」などの英語補足を加える「ハイブリッド形式」が、AIへの意図伝達には有効であると感じました。
また、秒単位で仕様を固めるより、AIの音楽的センスを信じ、時間は目安であるなどと「ゆらぎ」を許容することで、アウトプットの質が高まると感じました。
このあたりの制御精度については、今後さらなる改善が楽しみなポイントだと期待しています。