歌声と楽曲構造を入力とした歌唱時の表情アニメーション自動生成手法(2019)

Posted at 2025-01-17

歌声と楽曲構造を入力とした歌唱時の表情アニメーション自動生成手法(加藤, 2019)

概要

本論文は、歌声と楽曲情報、そして歌声から推定した口形情報を用いて、歌唱時の表情アニメーションを自動生成する手法を提案している。深層学習、特にLSTMを用いて時系列データである歌声、楽曲、口形情報を学習し、表情パラメータと頭部回転情報を推定する。提案手法の有効性を検証するため、定量的評価と主観評価実験を行い、精度と自然さを確認している。特に、次元圧縮法を用いることで学習効率を向上させている点が注目される。最終的に、高精細なモデルへの適用可能性も示している。

Q: 本研究で提案された手法の処理の流れを説明してください。

A:

本研究で提案された歌唱時表情アニメーション自動生成手法の処理の流れは、以下のようになります。

データセットの構築
- 歌声情報: 歌声の音響信号から、音量とメル周波数ケプストラム係数(MFCC)を抽出し、さらにそれらの1階微分、2階微分も加えた計42次元の特徴量を使用します。
- 楽曲情報: メロディーの音高情報（基本周波数の実数値）と拍情報（小節内の拍番号の整数値）を使用します。
- 口形情報: 歌声から口形素(Viseme)を推定し、その22次元の特徴量を使用します。
- 表情・頭部回転情報: 歌唱動画から、ブレンドシェイプアニメーションの19種類の口以外の基底表情の重み係数と、3軸の頭部回転情報を抽出します。
データの前処理
- 各データのサンプリングレートを表情データに合わせて統一します。
- 各データを0から1の範囲に正規化します。
- これらの処理により、入力データは計67次元（歌声42次元、楽曲3次元、口形22次元）、出力データは計22次元（表情19次元、頭部回転3次元）の時系列データとなります。
LSTMによる学習
- LSTM (Long Short-Term Memory) ネットワークを用いて、時系列データである入力データから出力データを推定するモデルを学習します。
- NMF (非負値行列因子分解) を用いて、出力データの次元圧縮を行います。これにより、頻出する表情を基底とし、その重み係数の時系列データを出力として扱います。
- NMFで次元圧縮された重み係数の時系列データをLSTMの出力として学習させます。
- 学習には、Adam最適化アルゴリズムを使用し、損失関数には正解データとのL2ノルムを使用します。
表情アニメーションの生成
- 学習済みのLSTMモデルに、新たな歌声データから抽出した歌声情報と推定された口形情報、そして楽曲情報を入力します。
- LSTMモデルは、入力データに基づいてNMFで次元圧縮された重み係数の時系列データを生成します。
- 生成された重み係数とNMFで得られた基底を掛け合わせることで、元の22次元の表情パラメータを再構成します。
- 再構成された表情パラメータと頭部回転情報を用いて、3DCGキャラクターの表情アニメーションを生成します。

この手法の重要な点は、歌声情報、楽曲情報、口形情報を組み合わせることで、より自然で表情豊かな歌唱アニメーションを生成できる点です。また、NMFによる次元圧縮とLSTMによる時系列データの学習を組み合わせることで、高精度なアニメーション生成を可能にしています。

Q: 本研究で使用された深層学習モデルと、その理由を説明せよ。

A:

本研究では、時系列データの学習に適した深層学習モデルとして**LSTM（Long Short-Term Memory）**が用いられました。LSTMが選ばれた主な理由は以下の通りです。

時系列データへの適合性:
- 表情や口の形、頭部の動きは時間とともに連続的に変化するため、これらのデータを扱うには、時系列データの学習に適したモデルが必要です。
- LSTMは、**RNN（Recurrent Neural Network）**の一種であり、時系列データの学習に特化した構造を持っています。RNNは、中間層の出力値を次のデータの学習時の入力とすることで、時間的な連続性を考慮した学習が可能です。
- 特にLSTMは、RNNの課題であった勾配消失や勾配爆発といった問題を、入力ゲート、出力ゲート、忘却ゲートという内部機構によって解決しており、より長期的な依存関係を捉えることができるため、時系列データの学習において高い精度を発揮します。
連続的な情報処理:
- 表情や口の形を推定する研究では、連続的な情報の学習が重要です。LSTMは、連続的な情報を入力として扱い、時間的な変化を考慮しながら学習することができます。これにより、表情の微妙な変化や頭部の動きの滑らかな遷移を捉えることが可能になります。
高い学習精度:
- 多くの研究で、LSTMは時系列データの学習において高い学習精度を示すことが実証されています。特に、音声や自然言語処理の分野で広く用いられており、その有効性が確認されています。
- 本研究においても、LSTMは歌声情報、楽曲情報、口形情報といった時系列データを入力とし、表情パラメータと頭部回転情報の時系列データを正確に推定することが可能でした。

本研究におけるLSTMの具体的な使用方法:

3層の一方向LSTM (Undirectional LSTM) を使用しました。
最適化にはAdamを使用し、最終層の活性化層には双曲線関数であるハイパボリックタンジェントを用いました。
損失関数には、正解データとのL2ノルムを使用しました。

結論:
LSTMは、時系列データの学習に特化した深層学習モデルであり、その高い学習精度と連続的な情報処理能力から、本研究における歌唱アニメーション生成において重要な役割を果たしました。特に、表情や頭部回転といった時間的に変化するデータの学習に適しており、より自然で滑らかなアニメーション生成を可能にしました。

Q: 歌唱アニメーション生成における深層学習の有効性と限界は？

A:

歌唱アニメーション生成における深層学習の有効性と限界について、提供された資料から考察します。

深層学習の有効性:

時系列データ処理能力: 深層学習モデルの中でも特に、LSTM（Long Short-Term Memory）のような再帰型ニューラルネットワーク（RNN）は、時系列データの学習に非常に有効です。歌唱時の表情や頭部回転は時間とともに連続的に変化するため、LSTMのようなモデルは、これらの動きを学習し、予測するのに適しています。
複雑な関係性の学習: 歌唱時の表情は、歌声の音響特徴、楽曲情報（リズム、メロディー）、口の動きなど、様々な要素が複雑に絡み合って変化します。深層学習モデルは、これらの要素間の複雑な関係性を学習し、高精度なアニメーション生成を可能にします。
自動生成の可能性: 深層学習を用いることで、歌声や楽曲などの比較的容易に入手可能な情報から、表情アニメーションを自動的に生成することが可能になります。これにより、アニメーション制作にかかる労力や時間を大幅に削減できる可能性があります。
個人特有の表現の学習: 歌唱時の表情は個人によって大きく異なるため、汎用的なパラメータでの表現は難しいとされています。深層学習モデルを用いることで、個々の歌唱者の特徴を学習し、その人に特有の表情アニメーションを生成することが可能になります。
高精度なアニメーション生成: 提案手法では、歌声情報、楽曲情報、口形情報を入力として、NMF（非負値行列因子分解）による次元圧縮を施した上でLSTMで学習することで、計測データとの二乗誤差平均を大幅に減少させることに成功しています。また、主観評価実験においても、生成されたアニメーションは、計測データと同程度の自然さを持つことが示されています。
多様な表情の生成: 深層学習モデルを用いることで、目周辺の動きや頭部回転といった、口の動き以外の様々な表情要素を生成することができます。

深層学習の限界:

無音区間の処理: 歌唱者が発声しない区間では、歌声情報だけでは適切な表情や動きを推定することが困難です。そのため、楽曲情報（リズム、メロディー）などを加えることで、この問題を補完する必要があります。
表情の多様性と複雑さ: 表情は複数の表情筋の複雑な相互作用によって生成されるため、歌声情報や口形情報だけでは、すべての表情を正確に推定することは難しいと考えられます。
学習データの依存性: 深層学習モデルは学習データに強く依存するため、学習データに含まれないような歌唱スタイルや楽曲に対しては、必ずしも適切なアニメーションを生成できるとは限りません。
テンポの異なる楽曲への対応: 現状では、学習データとテストデータのテンポが類似している場合にのみ実験が行われており、大きくテンポの異なる楽曲では実験が行われていません。テンポや曲調が大きく異なる場合には、同じ歌唱者でも歌唱特徴が変化するため、学習が困難になる可能性があります。
データセットの必要性: 深層学習は大量のデータセットを必要とするため、高品質な歌唱アニメーションを生成するためには、十分なデータセットが必要となります。

総括
深層学習は、歌唱アニメーション生成において非常に強力なツールであり、特に時系列データの処理能力と複雑な関係性を学習する能力において、大きな有効性を示しています。一方で、無音区間や表情の複雑さ、学習データの依存性といった限界も存在します。今後の課題としては、これらの限界を克服するために、より多様なデータセットの構築や、より高度な深層学習モデルの開発が必要となるでしょう。

Q: 提案手法における入力データの種類とそれらの役割を説明せよ。

A:

提案手法における入力データは、歌声情報、楽曲情報、口形情報の3種類です。これらの情報は、歌唱時の表情アニメーションを自動生成するために、それぞれ異なる役割を担っています。

歌声情報：
- 歌声単独の音響信号から得られる情報で、音量と**音響特徴量（MFCC）**が含まれます。
- 音量は波形振幅の二乗平均を1次元の特徴量として使用します。
- **MFCC（メル周波数ケプストラム係数）**は、13次元の特徴量として使用され、人間の音声知覚を考慮した声道特性を表します。
- 音量とMFCCのそれぞれの時間的変化を捉えるために、1階微分と2階微分した結果も特徴量として加え、合計42次元の特徴量として使用されます。
- 歌声情報は、主に頭部回転情報の推定に役立ちます。心理実験からも、歌唱時の頭部の動きは歌声の特徴と強い関連性があることが示唆されています。
楽曲情報：
- 歌声情報からは解析が困難な、楽曲そのものに関する情報です。
- メロディー（音高情報）と拍情報が含まれます。
- メロディーは、歌唱の元となるメロディーの基本周波数の実数値を、各フレームにおける1次元の特徴量として使用します。
- 拍情報は、一定間隔で周期的に各小節ごとに刻まれるリズムの情報で、小節内の拍番号の整数値を各フレームにおける1次元の特徴量として使用します。
- 楽曲情報は、発声タイミングや拍に合わせた動きなど、歌唱者が発声しない箇所での動きの推定に有用です。歌唱者が本来の譜面からどのくらいずれているかなどの動作推定にもつながります。
口形情報：
- 歌声情報から推定される口の形に関する情報で、**口形素（Viseme）**と呼ばれる特徴を使用します。
- 口形素は、単語を読み上げる際の顔や口の位置を表す音声の基本的な視覚的特徴で、音としては異なるが視覚的には同一の音素を同じものとして扱います。
- 22次元の特徴量として使用され、口形素の強度、口形素間のつながり、顎と唇の使い方に関する特徴が含まれます。
- 口形情報は、歌声情報だけでは捉えられない表情変化の特徴を捉えるために用いられます。口の動かし方から表情筋の動きを推定することで、表情パラメータの推定精度を向上させます。

これらの入力情報を組み合わせることで、歌声情報だけでは困難であった、歌唱時の表情アニメーションの生成が可能になります。特に、口形情報は、歌声情報のみでは欠損するような情報を補完し、より高次の情報を付与する役割を果たします。また、楽曲情報は、歌声が存在しない箇所での動きの推定に役立ちます。

Q: 歌唱アニメーション生成における課題を三点挙げよ。

A:

歌唱アニメーション生成における課題は、以下の3点に集約されます。

無音区間における動きの推定：歌唱者が発声しない区間では、歌声情報だけでは適切な表情や動きを推定することが困難です。歌唱者は、発声しない箇所でもリズムに合わせて動いたり、発声の前後の準備動作をする場合があります。しかし、歌声のみが入力の場合、これらの箇所にはほとんど情報がないため、適切な動作の推定が難しくなります。この課題を克服するために、楽曲情報（リズムやメロディーなど）を加えて、歌声がない部分の動きを補完する必要があります。
表情の多様性と複雑さの再現：表情は複数の表情筋の複雑な相互作用によって作り出されるため、歌声情報や口形情報だけでは、全ての表情を正確に推定することは難しいと考えられます。歌唱時の表情は、歌い方、歌声の音量、リズムなど様々な要素の組み合わせに応じて変化しますが、これらの変化は個人に大きく依存するため、一般的なパラメータで汎化することが困難です。そのため、個人特有の表情の特徴を捉え、それをアニメーションに反映させるための高度な手法が必要となります。また、表情の動きは、口の動きだけでなく、目や眉など他の部位の動きも重要になるため、これらの要素を同時に考慮する必要があります。
学習データと生成対象の乖離：深層学習モデルは学習データに強く依存するため、学習データに含まれないような歌唱スタイルや楽曲に対しては、必ずしも適切なアニメーションを生成できるとは限りません。特に、テンポや曲調が大きく異なる場合、同じ歌唱者でも歌唱特徴が変化するため、学習が困難になる可能性があります。したがって、多様な歌唱スタイルや楽曲に対応できる汎化能力の高いモデルを開発することが課題となります。そのためには、より多様な歌唱データセットを収集し、学習モデルのロバスト性を向上させる必要があります。

これらの課題を解決するためには、歌声情報に加えて、楽曲情報や口形情報などの多角的な情報を活用し、より高度な深層学習モデルを開発する必要があると考えられます。また、個人差を考慮したモデル化や、多様なデータセットの構築も重要なポイントとなります。

Q: 音声、楽曲情報、口形情報が表情生成に及ぼす影響を比較せよ。

A:

提案手法において、歌声情報、楽曲情報、口形情報が表情生成に及ぼす影響を比較すると、それぞれが異なる役割を果たし、組み合わさることでより自然で表現力豊かな歌唱アニメーションの生成に貢献していることがわかります。

歌声情報:
- 歌声情報には、音量と音響特徴量（MFCC）が含まれており、これらは主に頭部回転情報の推定に重要な役割を果たします。
- 心理学的な実験でも、歌唱時の頭部の動きは歌声の特徴と強い関連性があることが示されており、音量や音響特徴量が頭部の動きを推定する上で有効であることが裏付けられています。
- しかし、歌声情報だけでは表情全体の動きを捉えることは困難です。特に、歌唱者が発声しない無音区間では、歌声情報が不足するため、適切な動きを推定することが難しくなります。
楽曲情報:
- 楽曲情報には、メロディー（音高情報）と拍情報が含まれています。
- これらの情報は、歌声情報だけでは捉えられない、歌唱者が発声しない箇所での動きの推定に役立ちます。
- 例えば、拍に合わせてリズムを取る動きや、歌唱者が本来の譜面からどのくらいずれているかなど、歌声情報だけでは分からない情報を補完することができます。
- 楽曲情報は、歌唱者の個性に依存しない特徴も持っており、歌唱アニメーションに一貫性を持たせる役割も果たします。
口形情報:
- 口形情報は、歌声から推定される口の形に関する情報で、**口形素（Viseme）**という特徴が用いられます。
- 口形素は、口の動かし方の特徴を捉え、音としては異なるが視覚的には同じ音素を同一として扱うことで、表情筋の動きを推定し、表情パラメータの推定精度を向上させます。
- 口形情報は、歌声情報だけでは捉えられない表情変化の特徴を補完する上で非常に重要です。
- 口の開閉や顎の動きなど、口の形は表情の一部であり、他の表情筋の動きにも影響を与えるため、口形情報を加えることでより豊かな表情アニメーションを生成することが可能になります。

比較とまとめ:

歌声情報は、頭部回転など、歌唱時の基本的な動きの推定に有効ですが、無音区間の処理や表情全体の表現には限界があります。
楽曲情報は、歌声情報が不足する無音区間の動きを補完し、歌唱アニメーションにリズム感や一貫性をもたらします。
口形情報は、表情の中でも特に重要な口の動きを捉え、他の表情筋の動きを推定することで、より自然で多様な表情の生成に貢献します。

これらの情報を組み合わせることで、それぞれの情報の欠点を補い、より高精度で自然な歌唱アニメーションの生成が可能になります。特に、口形情報は、歌声情報だけでは欠損するような情報を補完し、より高次の情報を付与する役割を果たします。また、楽曲情報は、歌声が存在しない箇所での動きの推定に役立ちます。
実験結果からも、歌声情報、楽曲情報、口形情報を全て入力に用いた場合が、最も計測データに近い表情を生成できることが示されており、これらの情報が相互に補完しあいながら、歌唱アニメーションの生成に貢献していることがわかります。

Q: 本研究で用いられた次元圧縮手法とその効果を簡潔に述べよ。

A:

本研究で用いられた次元圧縮手法は**非負値行列因子分解（NMF）**であり、これは歌唱アニメーションの生成精度向上に大きく貢献しました。NMFは、非負値のデータを加法的な構成成分に分解することができる多変量解析手法であり、この特性が表情アニメーションの生成において有効に働きました。

NMFの効果を具体的に述べると以下のようになります。

学習効率の向上:
- 表情パラメータは高次元であり、そのまま出力として学習を行うと、学習効率が非常に低くなるという課題がありました。NMFを用いることで、頻出する表情パターンを基底として抽出し、それらの重み係数の時系列データとして表現することで、出力データの次元数を削減し、効率的な学習が可能になりました。
- 実験結果からも、NMFによって次元圧縮されたデータを使用した場合と、次元圧縮を行わなかった場合を比較すると、NMFを用いた場合の方が、計測データとの二乗誤差平均が大幅に減少しており、精度が大幅に向上していることが示されています。
データの特徴抽出:
- 歌唱時の表情は、音の高さや楽曲構造など様々な要素で変化しますが、類似性の高い歌唱区間では、類似性の高い表情や頭部回転をすることが知られています。NMFは、表情パラメータの時系列データを基底と重み係数に分解することで、頻出する表情パターンを抽出することができ、表情データの本質的な構造を捉え、より効率的な学習を行うことが可能になりました。
個人差への対応:
- 歌唱時の表情は個人によって異なり、楽曲が変化しても基底となる動作は変わらず、その重み係数の時系列データのみが変化すると仮定されています。NMFは、個人に応じた基底表情を推定し、それらの重み係数を時系列データとして扱うことで、個人特有の表情を表現することができます。

これらの効果により、NMFによる次元圧縮を導入することで、より効率的に学習が行えるようになり、結果として、より高精度で自然な歌唱アニメーションの生成が可能になったと考えられます。

Q: 次元圧縮手法の導入がアニメーション生成精度にどう貢献したか？

A:

次元圧縮手法の導入は、歌唱アニメーションの生成精度向上に大きく貢献しました。特に、本論文で採用された**NMF（非負値行列因子分解）**による次元圧縮は、以下の点でアニメーション生成の精度向上に寄与しています。

学習効率の向上：
- 表情パラメータは高次元であり、そのまま出力として学習を行うと、学習効率が非常に低くなるという課題がありました。これは、出力する表情パラメータの次元数が大きいため、効率的な学習が難しいためです。
- NMFを用いることで、頻出する表情パターンを基底として抽出し、それらの重み係数の時系列データとして表現することで、出力データの次元数を削減し、効率的な学習が可能になりました。これにより、学習がより早く、安定して行えるようになりました。
- NMFによって次元圧縮されたデータを使用した場合と、次元圧縮を行わなかった場合を比較すると、同じ入力情報であっても、NMFを用いた場合の方が、計測データとの二乗誤差平均が大幅に減少しており、精度が大幅に向上していることが示されています。これは、次元圧縮によって、寄与の高いパラメータの学習に成功したためと考えられます。
データの特徴抽出：
- 歌唱時の表情は、音の高さや楽曲構造など様々な要素で変化しますが、類似性の高い歌唱区間では、類似性の高い表情や頭部回転をすることが知られています。また、多くの楽曲は繰り返し構造を持っており、繰り返し類似する表現が現れることも同様に知られています。
- NMFは、非負値のデータを加法的な構成成分に分解することができる多変量解析手法であり、表情パラメータの時系列データを基底と重み係数に分解することで、頻出する表情パターンを抽出することができます。これにより、表情データの本質的な構造を捉え、より効率的な学習を行うことが可能になります。
- 表情には左右対称性が多く存在することが知られており、左右の同様の部位が同じタイミングで動くという特徴が多くみられます。NMFを用いることで、このような対称的な動きを捉え、より自然な表情を生成することにも貢献していると考えられます。
個人差への対応：
- 歌唱時の表情は個人によって異なり、楽曲が変化しても基底となる動作は変わらず、その重み係数の時系列データのみが変化すると仮定されています。NMFは、個人に応じた基底表情を推定し、それらの重み係数を時系列データとして扱うことで、個人特有の表情を表現することができます。
- 学習前に個人における基底表情を推定し、その重み係数を学習時の出力として扱うことで、個人特有の歌唱時の表情をより正確にモデル化できるようになりました。

これらの効果により、次元圧縮手法を導入したことで、より効率的に学習が行えるようになり、結果として、より高精度で自然な歌唱アニメーションの生成が可能になったと考えられます。

Q: 主観評価実験の結果から、提案手法の有効性を論ぜよ。

A:

主観評価実験の結果から、提案手法の有効性は多角的に確認できます。この実験では、生成されたアニメーションの自然さと、計測データとの類似性という2つの観点から評価が行われました。以下に、それぞれの観点からの結果をまとめ、提案手法の有効性について議論します。

1. 生成結果の自然さ

異なる歌唱者と異なる楽曲で学習した場合:
- この条件下では、計測データの方がわずかに自然に見えるという結果が得られました。しかし、22.2%の被験者が「どちらともいえない」または「生成データの方が自然である」と回答しており、学習時とテスト時の環境が大きく異なる場合でも、一定の自然さを保ったアニメーションが生成できていることが示唆されます。これは、提案手法が未知のデータに対してもある程度汎用性を持って対応できることを意味します。
- プロのCGアーティストによる評価では、被験者全体の結果と同様に、計測データの方がより自然であると評価されましたが、有意差は認められませんでした。これは、プロの視点から見ても、生成されたアニメーションの自然さが一定のレベルに達していることを示しています。
同一の歌唱者の異なる楽曲で学習した場合、異なる歌唱者による同一の楽曲で学習した場合:
- これらの条件下では、計測データと生成データの自然さについて、被験者による評価はほぼ同等であり、生成データは計測データと遜色のない自然さを持つことが示されました。これは、提案手法が特定の歌唱者の特徴を捉え、異なる楽曲においてもそれを反映したアニメーションを生成できることを意味します。
- プロのCGアーティストによる評価では、計測データの方がわずかに自然であると評価されましたが、有意差は認められませんでした。この結果は、プロの視点から見ても生成されたアニメーションの自然さが一定のレベルに達していることを示しています。

2. 計測データとの類似性

同一の歌唱者の異なる楽曲で学習した場合:
- この条件下では、生成データと計測データとの類似性は「どちらともいえない」よりも高い評価が得られ、提案手法が歌唱者に依存した動作を正確にモデル化できていることが示唆されました。
- 特に、回答結果のヒストグラムを見ると、「とてもよく似ている」と評価する被験者が多く、生成されたアニメーションが、計測データと非常に近い動きを再現できていることがわかります。
- プロのCGアーティストによる評価では、非専門家より低い評価を与えられましたが、「どちらでもない」よりは類似性が高いと評価されました。これは、専門家は細かな差異を識別できることを示唆しています。
異なる歌唱者による同一の楽曲で学習した場合:
- この条件下では、生成データと計測データとの類似性は「どちらともいえない」よりも低い評価となり、提案手法が歌唱者固有の動作特徴を学習できていることが示されました。
- 回答結果のヒストグラムを見ると、「全く違う」と評価する被験者が多く、生成されたアニメーションが、異なる歌唱者の動きを区別して表現できていることがわかります。
- プロのCGアーティストによる評価では、「どちらでもない」より類似性が低いと評価され、非専門家との評価の違いが示唆されました。

結論

これらの結果から、提案手法は歌声、楽曲情報、口形情報を組み合わせることで、自然で、かつ歌唱者固有の動作を反映したアニメーションを生成できることが示されました。
特に、NMFによる次元圧縮と、LSTMによる時系列データの学習が、この成果に大きく貢献していると考えられます。NMFは、高次元の表情パラメータを効率的に学習可能な低次元の表現に変換し、LSTMは、時間的な変化を考慮したアニメーションの生成を可能にしました。
主観評価実験の結果は、提案手法が従来の技術と比較して、より高品質な歌唱アニメーションを生成できる可能性を示唆しています。
プロのCGアーティストによる評価は、非専門家との評価のずれを示しており、専門家はより細かな差異を識別できることが示唆されています。しかし、専門家からの評価においても、生成されたアニメーションは一定の自然さと類似性を保っていると認められました。

これらの結果から、提案手法は歌唱アニメーションの自動生成において、有効なアプローチであると結論付けられます。

Q:主観評価実験の結果と考察を簡潔にまとめよ。

A:

主観評価実験の結果と考察をまとめると、以下のようになります。

1. 生成結果の自然さ

異なる歌唱者と異なる楽曲で学習した場合： 計測データの方がわずかに自然に見えるという結果でしたが、22.2%の被験者が生成データの方が自然である、またはどちらとも言えないと回答しており、提案手法が一定の自然さを保ったアニメーションを生成できることが示唆されました。
同一の歌唱者の異なる楽曲で学習した場合、異なる歌唱者による同一の楽曲で学習した場合： 生成データと計測データの自然さについて、被験者の評価はほぼ同等で、生成データが計測データと遜色ない自然さを持つことが示されました。
プロのCGアーティストによる評価では、非専門家より計測データの方が自然であるという評価が多くなりましたが、有意差は認められなかった。これは、プロの視点から見ても、生成されたアニメーションの自然さが一定のレベルに達していることを示しています。

2. 計測データとの類似性

同一の歌唱者の異なる楽曲で学習した場合： 生成データと計測データとの類似性は「どちらともいえない」よりも高い評価が得られ、提案手法が歌唱者に依存した動作を正確にモデル化できていることが示唆されました。多くの被験者が「とてもよく似ている」と評価しており、生成されたアニメーションが、計測データと非常に近い動きを再現できていることがわかります。
異なる歌唱者による同一の楽曲で学習した場合： 生成データと計測データとの類似性は「どちらともいえない」よりも低い評価となり、提案手法が歌唱者固有の動作特徴を学習できていることが示されました。多くの被験者が「全く違う」と評価しており、生成されたアニメーションが、異なる歌唱者の動きを区別して表現できていることがわかります。
プロのCGアーティストによる評価では、非専門家より生成データと計測データの類似性が低いと評価されました。しかし、実験の結果から、異なる楽曲でも同じ歌唱者の動作をモデル化することで、計測データと近いアニメーションを生成することに成功したと言えます。また、同一の楽曲の異なる歌唱者の動作を学習した場合、同じ歌唱者で学習した結果とは有意差のある結果を得ることができ、提案手法が歌唱者の個性を捉えられていることを示唆しています。

考察

提案手法は、歌声、楽曲情報、口形情報を組み合わせることで、自然で、かつ歌唱者固有の動作を反映したアニメーションを生成できることが示されました。
特に、NMFによる次元圧縮と、LSTMによる時系列データの学習が、この成果に大きく貢献しています。NMFは高次元の表情パラメータを効率的に学習可能な低次元の表現に変換し、LSTMは時間的な変化を考慮したアニメーションの生成を可能にしました。
主観評価実験の結果は、提案手法が従来の技術と比較して、より高品質な歌唱アニメーションを生成できる可能性を示唆しています。
プロのCGアーティストによる評価は、非専門家との評価のずれを示しており、専門家はより細かな差異を識別できることが示唆されました。しかし、専門家からの評価においても、生成されたアニメーションは一定の自然さと類似性を保っていると認められました。

これらの結果から、提案手法は歌唱アニメーションの自動生成において、有効なアプローチであると結論付けられます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up