はじめに
この記事はVTuber Tech #1 Advent Calendar 2018 20日目の代理投稿です。昨日は @welchi さんによるTensorflow.jsによるActionRecognitionでUnityのゲームキャラクターを動かしてみるでした。
バーチャルYouTuber(以下VTuber)の配信システムでリップシンク(口パク)を作る時、もはや定番といえるOVRLipSyncですが、実はiOSに対応していないという弱点があります。
そこで今回は、iOSでリップシンクを実装する方法を考えつつ、手軽に導入できるSALSAの使い方を紹介しようと思います。(blendshapeのみに対応です)
使用モデル: リリカ / Lyrica / 標準ver - VRoid Hub
ちなみにリップシンクという言葉を整理しておくと、大きく「開閉するもの(0-1)」と「口形素(aa,E,ih,oh,ouなど)を区別するもの」の2種類があります。また、ゲームの文脈だと音声は事前収録されたものを使いますが、VTuber文脈ではリアルタイムのマイク入力を指すことが多いと思います。
iOSでリップシンクを実装する方法
顔認識を使う方法
イレギュラーですが、マイク入力でなくカメラ画像からリップシンクをさせる方法です。
iOSだとARKitのFaceTrackingが使えますし(iOSバージョン要確認)、dlibなどの顔認識アセットも配布されています。
OVRLipSyncを使う方法
1.30
(2018.12.26時点)では未対応ですが、今後対応予定があるそうです。
OVRLipSyncは15種類の口形素を取得することが出来るので、リッチな口パク表現をすることが出来ます。
もしiOSに対応したらかなり有力な候補になるような気がします。
OVRLipSyncは今日1.30がリリースされる。UE4対応強化と、笑いの検知beta版。GoではCPUとは別のハードウェアDSP上で動くようになる。そのあとのリリースではiOSサポートも予定されてる。#OC5JP
— よしたか (@TyounanMOTI) 2018年9月26日
音量を使う方法
マイク音量を正規化して、直接口の開閉に割り当てるパターンです。1番シンプルですが、配信において考慮すべきことが出てきたりするので、結果ライブラリ使ったほうが早いのでは?ってなりそうな気がします。
実装は以下の記事のコードが参考になると思います。
【初心者向け】UnityとLive2Dで拡張しやすいVTuber配信システムを作る方法
SALSAを使う方法
SALSA With RandomEyes
2018.12.26時点で$35でした。
SALSAは"Simple Automated Lip Sync Approximation"の略で、その名の通りシンプルなLipSyncアセットです。
取得できる値は音量だけなのですが、上記の方法をラップした感じだと思います。スムージングとか(多分)エラー処理とかをしてくれているので、手軽にそれっぽいリップシンクが実現出来る方法だと思います。
Windows, Mac, Linux, Android, IOS, Windows Store UWP (8 & 10 .NET Core), WP8, and WP10. WebGL is supported
サポートしてるプラットフォームがすごい。欠点としては、コアのコードがdll化されているので困った時に中身をいじれないこと(OVRLipSyncもそうですが)と、日本語の情報が少ないことです。あとマイク入力を使う時は別途アセットを入手する必要があるなど少しだけややこしいです。
SALSAでVTuber向けのリップシンクを導入する方法
以下の動画の手順通りにやっていけば良いだけなのですが、英語でとっつきにくいと思うので日本語で紹介していきます。
SALSAでマイク入力を使う方法
— Nakaji Kohki / リリカちゃん💜💊 (@nkjzm) 2018年12月25日
Unity Microphone Input using SALSA Lip Sync - YouTubehttps://t.co/dnRitW6DIY
まずはBlendShapeが入ったモデルを含むUnityプロジェクトを用意してください。VRMでも大丈夫です。SALSAをインポートしておいてください。
次にマイク入力用のアセットを取得します。以下のリンクにアクセスし、Donwload Filesというボタンを押してください。
http://crazyminnowstudio.com/posts/real-time-microphone-input-for-salsa-lip-sync/#Download
購入した時のメールアドレスと番号を求められます。番号はUnityのOrder numberに該当するので、メールフォルダを検索すると出てくると思います。
認証が通ったらDLページに進みます。
MicInput-Lite
を探してダウンロードしてください。なお2018.12.26時点ではv1.6.0
(安定版)とv1.7.0
(β版)がありました。v1.7.0
は遅延が10倍以上少ないそうです。お好みで。
UnityPackageが落ちてくるので、プロジェクトにインポートします。
Mixerを作ります。Projectorビューで右クリックをして、Create > Audio Mixer
から作成できます。
ダブルクリックするとAudioMixerビューが開くので、下記のように編集してください。
上記が面倒くさい人のために、設定済みのMixerを.unitypackage
で配布します。ご活用ください。
https://drive.google.com/open?id=19BNw8pOEzx4pX27vpiYm5VbvtvwDQJJR
さて、もう少しです。
シーンにある3Dモデルを選択してください。AddComponentからCrazy Minnow Studio > SALSA > Salsa 3D
を選択してください。検索でもいけます。
次にマイクを付けます。AddComponentからCrazy Minnow Studio > SALSA > addons > micinput
を選択してください。CM_Mic Input
というコンポーネントがアタッチされます。
AudioSourceに自身を設定してください。また必要であればAvailable Microphonesから利用したいマイク入力を選択してください。
AudioSourceのOutPutにmicInputを設定してください。右側の○から探すと楽です。
Salsa 3D
のSkinned Mesh Render
に顔のBlendShapeを設定してください。
下のSaySmall Index
, SayMedium Index
, SayLarge Index
が選択可能になります。小さい音の時、普通の音の時、大きな音の時という意味で、シーケンシャルです。
先人によると以下のようにするとオススメらしいです。ただ僕が試した感じだとモデルに寄りそうので、色々調整してみてください。
めも
— karukaru👑@白魔導技士 (@_karukaru_) 2018年5月23日
SALSA のリップシンク
Small -> ii
Medium -> ee
Large -> oo
あとBlendSpeed
はデフォルト10なのですが、緩慢な動きはVTuberに合わないと思うので、20くらいに設定するといい感じだと思います。あとRange of Mosion
はどのくらい口を大げさに開閉するかのパラメータなので、必要なら調整してください。こちらのAliciaモデルは100で大丈夫そうですが、記事先頭にあるVRoidのモデルは70くらいに設定してあります。
この状態で再生すると、こんな感じで口パクすると思います。
僕が試してみたところ、「oh, E, aa」でもいい感じだと思います。
結構印象変わるので、やっぱりここだけは調整してみてください。
まとめ
使ってみたら意外とそれっぽく動いて良かったです。SALSAはいいぞ!
VTuber Tech #1 Advent Calendar 2018 21日目は @segur さんによるVRoidのウィンドウを透過させてトレースモデリングするです。