はじめに
流行りに乗り遅れている感じはするのですが、もはやバ美肉は一般的な営みになりつつありますね。
最新のAIというのがなんかすごいらしいので、試しにこれを使ってバ美肉してみたいと思います。
ちなみにこのツイートを見て思いつきました。
じゃあNovelAIで出力した1枚絵から簡単にVTuber的なことできるんじゃない?って思ってtalking-head-anime-3で試してみたら、それっぽいのができたので結構びっくりした。
— ねぎぽよし (@CST_negi) October 6, 2022
イラストを作るのも、1枚絵から適切なリギングをするのもどっちも機械学習だし、すごい時代になったなと思った。 pic.twitter.com/fFDdh8SAue
使用PC
- Windows10 Pro 21H2 64bit
- Core i5-6600
- RAM 16GB
- GeForce GTX 1650
前提
-
Gitインストール、GitHubアカウント取得済み- (追記)別にDownload Zipしてもええやん(ええやん)
AIに絵を描かせる
Novel AI Diffusionというやつです。
賛否あるみたいですが、今回はこいつに絵を書かせてみたいと思います。
法的な話とかはそれこそ卒論レベルになってしまうのでここでは触れません。
お絵かきAIの解説のツイートがありました。上記のものもだいたいこんな感じなんじゃないかな。
昨今のお絵描きAIの進捗が著しく、いろんな方に一歩踏み込んで知ってもらいたいと思ったのでその仕組みについて解説資料を公開します〜(先日の技術書典の本の内容です)。これからいろんな分野の方が押さえておいても良い技術だと思うので、仕組みから興味持ってもらいたいなーという気持です。(1/5) pic.twitter.com/p7iBSY7ma5
— まっくす (@minux302) October 1, 2022
なお、NovelAIを使うに当たっては下記サイトを参考にしました。要は有料会員になったってコト。
解像度はPortrait(512*768)に設定し、その他はほぼ初期設定のままにしています。
ぶち込んだ文章はこれです。
pink hair girl with cat ears, blue eyes, short hair, full body, looking at viewer
上半身全体が写っていて、正面を向いている必要があるので、"full body, looking at viewer" を指定しています。その他はテキトウです。
(追記)背景を単純にするオプションを入れるといいみたいです。あとから知ったのですがVTuberっぽい画像を生成する呪文がまとめられていました。
VTuberっぽい立ち絵を生成する呪文テンプレートです
— Plat 🖼️ (@p1atdev_art) October 6, 2022
呪文は一枚目のALTに、推奨生成パラメータはリプにあります
テンプレートでは詳細な見た目の設定をしていないので、各自で髪型や色、服装を指定してください#novelAI #NAIDiffusion #NovelAIDiffusion pic.twitter.com/A8tpFyayTL
(追記おわり)
素材として十分使えそうです。
AIで絵を動かす
これを使います。
画像の準備
まず、上で作った画像を512*512 pxにクロップします。(ここはPhotoshopで手動でやった。)
次に、背景が透明じゃないと都合が悪いので切り抜きを行います。
今回は切り抜きもAIに任せてしまいました。
いい感じです。
環境構築
上のリポジトリのREADMEの言う通りにします。
このリンクからモデルをダウンロードし、data/models 配下に展開します。
condaが使えると環境構築を自動でしてくれるみたいです。
Anaconda入れるのなんか嫌だなあ…と思いつつ、どうせ素のWindows側の環境なんて普段使わないのでえいやとインストール。
リポジトリのルートフォルダでconda env create -f environment.yml
を叩くといい感じに環境構築してくれます。
その後conda activate talking-head-anime-3-demo
で環境を切り替え。
今回はリアルタイムトラッキングを試したかったのでiPhoneに予めiFacialMocapをインストールしておきます。要はお金を払ったってコト。(2回目)
実行
リポジトリのルートフォルダでpython tha3/app/ifacialmocap_puppeteer.py
を叩きます。
なにやら画面が出てくるのでLoad imageボタンを押して先程生成した512*512の背景が透明な画像を読み込みます。
iPhoneでiFacialMocapを実行し、出てきたIPアドレスをPCのアプリケーションの上のほうに入れてSTART CAPTURE!します。
動く!!!!!!!!!!1!!!!1111
すごい。
こんな感じ
ついでに声変換もVoidol2というものをつかってボイスモデル「音宮いろは(CV遠野まゆ)」さんの声に変換しています。これもリアルタイムで行うことができます。
あとがき
- MMVCという声質変換も試してみようと思ったのですがなんか上手く動かないのでやめました。
- 今回生成した画像について私は一切の権利を主張しません。
- そもそも公開していることが怒られるような事態になったらその時対応します。
すごい!
大変な時代になったもんだ。
ところで明日(10/9)は応用情報技術者試験の試験日ですね
こんなことをしている場合じゃない。