Lyria 3 とは何か
Google DeepMindが開発した「Lyria 3」は、テキストプロンプトや画像から48kHzのハイクオリティなステレオ楽曲を生成できる音楽AIモデルです。従来の音楽生成AIと比較して、ハーモニー・リズム・スペクトル構造の一貫性が大幅に向上し、ボーカル付きのフルアレンジ楽曲も生成できます。
Lyria 3 には2つのバリアントがあります。標準版の「Lyria 3」は30秒クリップを生成し、Geminiアプリ上で18歳以上なら無料で利用できます。「Lyria 3 Pro」はGoogle AI Plus/Pro/Ultraプランのユーザー向けで、最大3分のフルレングス楽曲を生成できます。バース・コーラス・ブリッジを含む完成度の高い楽曲が得られます。
開発者にとって重要なのは、Gemini APIを通じてパブリックプレビューとして公開されている点です。Google AI StudioのUIで試したり、Python・JavaScriptのSDKからプログラムで呼び出したりと、アプリケーション組み込みに向けた選択肢が揃っています。Google Cloud のVertex AI経由でも利用可能です。

アーキテクチャの仕組み
Lyria 3の内部構造は、マルチモーダル入力処理とスペクトログラムベースの音声生成という2つの柱で構成されています。
入力処理では、テキストプロンプトや画像が共通の潜在空間(latent space)にエンコードされます。言語モデルと画像エンコーダーが同一の意味空間を共有することで、「この風景写真に合う音楽」といったマルチモーダルな指示も自然に処理されます。このセマンティックベクトルがオーディオ生成モジュールへ渡されます。
音声生成モジュールは直接PCM波形を出力するのではなく、時間×周波数の2次元表現である「スペクトログラム」を生成します。このアプローチで調和のとれたハーモニーやリズムパターンを深層ニューラルネットワークで学習し、最終的にスペクトログラムから音声波形へ変換します。出力は48kHzステレオ(MP3またはWAV)で、すべての楽曲にSynthIDの電子透かしが自動付与されます。
Gemini API で音楽を生成する
Gemini APIを使った音楽生成は、google-genaiパッケージで数十行のコードで実装できます。まずパッケージをインストールします。
pip install google-genai30秒クリップを生成する基本的なPythonコードを示します。
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_GEMINI_API_KEY")
response = client.models.generate_content(
model="lyria-3-clip-preview",
contents="J-Pop風のポップソング。明るいピアノとドラム。Lyrics: シンプルで覚えやすいサビ。",
config=types.GenerateContentConfig(
response_modalities=["AUDIO", "TEXT"],
),
)
# レスポンスのパーツを処理(順序は保証されない)
parts = response.candidates[0].content.parts
audio_data = next((p.inline_data.data for p in parts if p.inline_data), None)
lyrics_text = next((p.text for p in parts if p.text), "")
# MP3ファイルへ保存
Path("output.mp3").write_bytes(audio_data)
# 歌詞・楽曲構造情報
print(lyrics_text)response_modalitiesに["AUDIO", "TEXT"]を指定することで、音声データと歌詞テキストの両方を取得できます。パーツ順序は保証されないため、inline_dataとtextを別々に抽出する実装が重要です。
Lyria 3 Proを使ってWAV形式でフルレングス楽曲を生成する場合は、model="lyria-3-pro-preview"とresponse_mime_type="audio/wav"を指定します。利用可能なモデルIDをまとめると、30秒クリップにはlyria-3-clip-preview、フルレングス楽曲にはlyria-3-pro-preview、リアルタイムストリーミングには実験的なlyria-realtime-expがあります。

プロンプト設計のコツ
Lyria 3 から高品質な楽曲を引き出すには、プロンプトの設計が鍵です。
基本的な構成要素として、ジャンル指定(J-Pop / Lo-fi hip hop / Jazz / EDM)、楽器指定(piano / acoustic guitar / strings / synth bass)、ムード指定(upbeat / melancholic / chill)、テンポ指定(BPM 120 / slow / uptempo)の組み合わせが効果的です。
ボーカルを含めたい場合はLyrics:キーワードが有効です。"Pop song with female vocals. Lyrics: 夢を追いかけて、どこまでも輝く空へ"のように指定します。画像入力によるムード制御も独自機能の一つです。風景写真や抽象画を渡すと、その画像のムードを反映した楽曲が生成されます。
Lyria 3 Proではさらに精密な制御が可能です。tempo: 128 BPM形式でのテンポ指定や、歌詞の開始・終了タイミングを秒単位で指定するタイムアライン歌詞機能が使えます。バース・コーラス・ブリッジを明示することで、3分前後の完成度の高い楽曲が得られます。
SynthID による透かし技術
Lyria 3 が生成するすべての楽曲には、Google DeepMindが開発した電子透かし技術「SynthID」が自動的に埋め込まれます。ユーザーの操作を一切必要とせず、生成と同時に透かしが付与される仕組みです。
SynthIDの音声透かし処理は次の手順で行われます。まず音声の波形データをスペクトログラムに変換します。次に、心理音響原理(psychoacoustic principles)を活用して透かし情報をスペクトログラムに埋め込みます。人間の耳が感知しにくい周波数帯域に情報を配置し、音が大きい部分でマスキング効果を利用することで、聴覚上は全く気づかないレベルに隠蔽します。最後にスペクトログラムから音声に逆変換します。
この透かしはMP3圧縮・再生速度変更・背景ノイズ付加に対して耐性があります。2025年時点で全世界100億件以上のコンテンツに適用済みで、「SynthID Detector」ポータルから誰でも検証できます。APIで生成した音楽にも透かしが入るため、商用利用時には利用規約と合わせて確認が必要です。
Veo 3 との組み合わせ活用と今後の展望
Lyria 3 の真価は、他のGeminiファミリーと組み合わせたときに発揮されます。動画生成モデル「Veo 3」との連携では、動画をGemini Flashで分析してプロンプトを生成し、Lyria 3 でサウンドトラックを合成するという完全自動化ワークフローが実現します。Google Workspace の「Google Vids」では Veo 3.1 と Lyria 3 が統合済みで、プロンプト1つで動画と背景音楽を同時生成できます。
実験的な「Lyria RealTime(lyria-realtime-exp)」では、ストリーミング形式でリアルタイムに音楽を生成し続けることができます。ゲーム・VR空間での環境音生成など、インタラクティブな音楽体験への応用が期待されます。
今すぐ試すには、Google AI Studioにアクセスするか、Gemini APIキーを取得してコードサンプルを動かしてみてください。音楽制作の経験がなくても、プロンプトを工夫するだけで多様なジャンルの楽曲が生成できます。サービスへの音楽機能組み込みや、映像コンテンツ制作の自動化など、活用シーンをぜひ検討してみてください。















