2025/3/15更新
ChatGPT4.5は非常に大きな、恐らく2兆を超えるパラメータを持つ、なかなかに人類最強のLLMなわけですが、巷では性能はo1やo3にかなわないし、どうなの??的な受け止めもありますし、一方ではやはり人間らしい受け答え、ハルシネーションの大幅な削減、EQ的な処理の強化など非常に面白い性質を持っていて、ある意味ではやはり人類のフロンティアモデルである事は間違いがない所の様です。
そこで、こちらで以前より、作成して利用している生成AIに今風歌詞を作成させるプロンプトを使って、このChatGPT4.5にも作詞をさせ、さらにそこから、SunoAIで作曲、Midjourneyで画像、(本来は映像も作成しますが、今回は画像のみ)で実際作成したものをご紹介します。
実際の曲は下記に紹介してあります
ぜひ一度通して聞いてみてから記事を読んで欲しいです!!
大まかな流れとしては、以下のようになっています。
ベースプロンプトは、詳細は省きますが、今風の日本のボカロっぽい、はやりの曲をうまく作成させるためのプロンプトになっています。今の若者の葛藤や苦しみ、言葉遣いなどを忠実に再現するような指示になっています。
以下にこの記事を読ませて、制作の流れをざっくりClaude3.7君に書いてもらった説明図を添付します(修正しないでそのままなので多少ずれてますね)
歌詞の作成
そしてそのベースプロンプトに対し、こちらでは「題名」「テーマ」そして「サビの繰り返しセリフ」だけを指定すると、後は自動的に作詞を行うプロンプトを作成しており、今回もそれを利用します。もちろん作詞が一回で終わるとは限りませんので、微妙なプロンプト調整なども必要に応じて行います。
今回は「いけいけシンギュラリティ」という題名、サビも同じセリフ、そして、シンギュラリティになる場合の人間の苦悩のようなものを今の若者の言葉で書いて、というテーマを与えています。
また、このベースプロンプト中ではSunoAIでの作曲を想定し、曲調もこの歌詞の内容から、自動で、曲調を3通りほど想定させて、それを出力させています。曲を作らせるときに変えて見て雰囲気を見ます。また読みがどうしても安定しないので、ひらがなカタカナ表記をさせた歌詞も出力させてそれをSunoAIには入力します。
今までもChatGPT4oや、o1、o3-mini、Deep SeekR1などいろいろなLLMで歌詞を作成してきていますが、プロンプトとしてはほぼ共通です。ただ、LLMによって、どうしても「癖」があってそのあたりはそれぞれの癖に合わせてプロンプトを調整します。
実際の歌詞が以下のようになりました。
もちろん評価になりませんので、ベースプロンプトには基本直接的な表現指定は全くないです。ただNGワードに関するものは変な癖を取るという意味と、いろいろ危ない事にならないように指定してあります。
これをAIが基本すべて作っているんですからね。 やっぱりシンギュラリティ近いですねw
(これがGPT4.5の評価という所ですね)
[題名]
いけいけシンギュラリティ
(C)Tam
[intro]
『ニュース速報です。人類史上最大の革命、シンギュラリティが到来。
少子化、経済不況、腐った政治、すべてが解決すると期待されています!』(いや、マジで?)
[verse]
はいきた、AIの神降臨
ベーシックインカム神すぎワロタ
働くとかマジだるすぎたし
年金ガチャとか闇すぎ案件
え、てかこれで人生ヌルゲー?
ついに俺らの時代きちゃった?
腐った議員ももうバイバイ
シンギュラ最高、神アプデ来たこれ
[pre-chorus]
…って浮かれてたけど
よく考えたらさ、AI様って
人類とかウザいって即BANしない?
もしかして俺ら終わってる系?(いや待て、落ち着け俺)
[chorus]
いけいけシンギュラリティ
未来はパラダイス、え、違うの?
いけいけシンギュラリティ
AI神すぎマジで尊い
いけいけシンギュラリティ(最高)
いけいけシンギュラリティ(神ゲー)
でもちょっと待って暴走したら?(怖い)
いけいけシンギュラリティ(ヤバめ)
いけいけシンギュラリティ(バズれ)
人類絶滅でもパリピ案件?
いけいけシンギュラリティ(カモン)
いけいけシンギュラリティ(無理ぽよ)
[bridge]
『ご覧ください、この素敵なAI管理社会!
24時間365日、AIがあなたの全てを見守ります!
犯罪ゼロ、ストレスゼロ、個性ゼロ!
え、なにそれヤバくない?
今なら人間やめてAIペットになれるキャンペーン実施中!』(いや草、無理)
[outro]
いけいけシンギュラリティ
夢見すぎて気づけばヤバげ
いけいけシンギュラリティ(マジ卍)
いけいけシンギュラリティ(ワンチャン)
いけいけシンギュラリティ(詰んだか)
いけいけシンギュラリティ(BAN案件)
…あれ、これよく考えたら終わってね?
ま、いっか知らんけど。
歌詞の調整
そして出力をされた歌詞を調整を行います。(一応・・・しない時も当然あります、というか、極力しないのが本来の目的です。マルシーのためだけにいじっていると言ってもよいかもw)
曲の作成
そして、出てきた歌詞を使って、SunoAIにかけて、後は出てきた曲を選びます。歌詞が思い通りになっていない場合などもありますので、そういう場合には、SunoAI内のEDITなどを行いイメージを調整します。ここはもうやはり「人間の勘」「人間の調整」ありますね(と言っておく・・・)。
今回もとにかく「サビの乗りの良さ」みたいのを重視しています。
また歌詞を今度はComfyUI上でのLLMのカスケード接続に通します。これは何をするかというと、歌詞から、テーマにあった画像生成に必要なプロンプトを生成させます。歌詞から状況を把握して、それに合わせた画像生成プロンプトを3通りほど出力させます。
画像の作成
今回は画像はMidjourneyを利用しました。もちろんFLUXやSDXL系を使ってもよいですね。
特にMidjourneyは「Style Reference」の機能が充実しており、様々な絵柄やカラーのスタイルなどを比較的イメージに寄せて作成できるため重宝します。
今回も今風に合いそうなsrefを選んで利用しています。
最初のものを今回、少し未来感のあるものに差し替えました。と言ってもほんのわずかです。あまり未来未来しないようなものを選んでいます。アナログ的なイメージが残るように、ですね。
映像の作成
映像に関して、今回初期バージョンを入れ替えることとし、、Veo2 のimage-to-video を使って上記の画像から作成しています。
プロンプトは多少変えてますが、基本、画像のものをベースにして少しづつ調整してみてます。
そして動画生成を利用して映像作成し、編集してつなぎますが、ここはまだ人力も多少必要です。
文字起こし
さてもう少し工程を追加しています。なぜ歌詞作ってあるのにこれが必要なの?って話ですが、音楽が入った映像に関して、歌詞を歌声に合わせて入れたい、という事ですね。なのでもう一度、映像(音部分)から音声を聞き取って文字起こしします。今回はこれをWhisperでやりました。Whisperもmediumやlargeと言ったサイズがありますが、試してみるとmediumだと結構酷い状態にもなるので、API経由でこれを起こしました。
このプログラムに、今回はWindsurf+Claude3.7でpythonで作成し実行してます。(下記文字入れ処理も同じ)
さすがにでも100%までは行きません。ただ、これを元の歌詞と見比べて、修正してみて?とClaude君に言うと、かなり直ります😎🖖
それで時間入りの歌詞テキストが完成します。
映像への文字入れ
文字入れ処理は色んな方法論が有りますが、外部サイトやアプリとかでもできますし、じまえならffmpegとかでやると良いですが、これもWindsurf+Claude君にプログラムを作らせるとまあ数度の調整で完成します。実際には内部で一度srtとして整形してから、それを使っています。文字なども、丸っこくてポップなのをおすすめをして?と言うとそれを出してくれるので、今回に合いそうなものをさらに選んでいます。
で、完成です!!
一応他の作例が見たい方は、
に動画生成も入ったものも置いてあります。
実際にはこれを各種配信サイトに公開したりしますね。まあそのあたりはYoutube動画などでたくさんあるのでご覧になるといいかなと思います。
ちなみに今回の制作時間は全て通しでおよそ3時間弱でした(急ぐと多分1時間とかですが、後は拘りですねw)