実は、辺境のYouTubeチャンネルに、素人臭い初音ミクの歌とかバ美肉動画とかを偽名でアップロードしてるんですが、最近の流行に乗っかって色々試してみました。技術的な解説というよりも、実践的な体験談になります。
背景をStable Diffusionで描く
ミク歌MVの背景画像作成にはStable Diffusionが良さそうです。なお、Google Colabで有害画像を生成してBANされるのが怖いので、ローカルで頑張ることにします。グラボが貧弱(nVidia GeForce GTX 1660、6GB)で苦戦していたのですが、Stable Diffusion web UIの登場により劇的に楽になりました。導入方法はこちらのサイトを参考にさせていただきました。
で、txt2imgを使って絵を作ります。写実的な雰囲気にしたい場合、カメラ属性指定と3D sculpt指定が効きます。歌詞の内容に合わせて「雨の夜に、群衆をバックにガーゴイルの像が立っている」という絵が欲しくて、以下のようなプロンプトを用いました。
a pan shot, front focus on a chimera gargoyle statue, crowds on a rainy street, reflecting electric light, modern building, heavy rain, SIGMA 85 mm F/1.4, 1/10 sec shutter, great detail, a masterpiece, 3D Sculpt
作った動画はこちら。
もう一つ曲を作ったけど、そちらの背景はフラクタル画像を動画にできるkalles fraktaler 2というソフトを使いました。Stable Diffusionもアニメーションにできるのだけど(stable-diffusion-animation)、まだ使いこなせないです。
Dance Diffusionの音源を使う
次はDance Diffusionです。長い曲を作るのは難しそうですが、サンプリング素材として使うことにしました。AIに芸術が奪われるというテーマで一曲書いたので、その中に4,5個のAI素材を入れてみました。作った動画はこちら。背景もStable Diffusionです。
Hugging Faceに以下サービスがありました。以下のサイトで6秒間までならお手軽に作れます。モデルmaestro-150kで作ったピアノの音の他、水の音や男の声を使いました。
AI音読サービスで英語の解説動画を作る
ついでにもう一つ。僕は昔からバ美肉がやってみたくて、VroidStudioで作ったモデルをBlenderで編集したり3teneで動かしたりして遊んでいたのですが、高級なマイクも良い声も持っていないし、なかなか満足なものが作れていませんでした。でも、AI音読サービスなら奇麗な声で解説動画を作ることができます。しかも、発音に自信が無くても英語圏を相手にVTuberができるようになります。今回は以下のサイトを使いました。
こちらのサイト、有償プランは980円からですが、5000文字までならクレジット明記前提で無料になっているようです。試したい人向けのコツとしては、Microsoft Wordとかに書いた文章をWindowsに音読させて、満足いく状態まで原稿を完成させてから、文字数制限のあるサイトにコピペするのがいいと思います。作った動画はこちら。
なお、英訳もAI(DeepL)の助けを借りてますが、それだけでは流石にダメで、特に英語の歌詞については、韻を調べたり、ネイティブの英会話講師に見せてコメントをもらったりしています。あと、欧米圏の詩の韻律についての知識も必要で、それこそアリストテレスの『詩学』の時代からダクテュロス・ペンタメトロスとかの規律があって、彼らは強弱調をすごい意識するらしいのですが・・・もう分からんですよそんなこと。今日アップした曲はまだネイティブからのフィードバックをもらっていないので、何か変だったら指摘ください。
AI技術を使って創作してみた感想
以上、僕のような一般人にとっても、AIは何かを作るための便利なツールになってきたと思います。逆に、一つのテクニックだけに鍛錬を集中させてしまうと、その技術がAIに奪われたときに厳しい状況に置かれる可能性もあります。更にもっとAIが進歩すれば、個々人の作家性すら奪われてしまうのでは、というような恐怖も感じます。が、個人的にはそこまで心配していません。動画を見てくれた人は分かると思いますが、僕は絵も作曲も映像制作も、素人ですからね。逆に興味が広く浅く散らばりすぎて、何もできなくなりがちな人間です。そういう人間にとっては、表現したいことが無くならない限り、それを助けるツールは多い方が良いと思います。