More than 5 years have passed since last update.

Visual to Sound: Generating Natural Sound for Videos in the Wildを読んだ

機械学習

Last updated at 2018-11-16Posted at 2018-11-16

Zhou, Y., Wang, Z., Fang, C., Bui, T., & Berg, T. L. (n.d.). Visual to Sound: Generating Natural Sound for Videos in the Wild.CVPR2018 Retrieved from https://arxiv.org/pdf/1712.01393.pdf

1.どんなもの？

ビデオを入力してそれにあった音声を生成

2.先行研究と比べてどこがすごいの？

完全に新しく音声を生成するあたらしい試み？

3.技術や手法のキモはどこにあるか？

Visually Engaged and Grounded AudioSet (VEGAS)

音声と映像のデータセットとしてAudio Set¹を使用している．
そのままではバックグラウンドの音にメインの音声が邪魔されていたり，音源がフレーム外だったり，間違った分類のものが含まれているので，そのなかから新たに１０カテゴリでを選択してあらたにデータセットを作成した．
カテゴリは
赤ちゃんの泣き声、いびき、犬、水の流れ、花火、鉄道、プリンタ、ドラム、ヘリコプター，チェーンソー

データの例：同じ色の部分がフレーム画像と音声データの位置と対応している

Sound generator

妥当な品質を確保するために16kHzの音声を生成する．
そのために非常に長いシーケンスを生成できるSampleRNN²を使用する．
SampleRNNは階層的に構築されたリカレントニューラルネットワーク．

下の層（詳細な層）は，前のKこの情報に加えて，上の層（粗い層）からの情報も使い音声を生成します．

WaveNet³では犬の鳴き声のような音声はうまく生成できなかったらしい．

video encoder

３つの方法を使用している

Frame-to-frame method

上の図の緑の枠線
ImageNet⁴で学習済みのVGG19⁵をもちいてフレーム画像から4096次元ベクトルの特徴を抽出する．
これを図のようにSound generatorの一番粗い層へ入力する．

Sequence-to-sequence method

上図の赤枠
Frame-to-frameで使用したVGGを用いた特徴をSound generatorの最も粗い層の最初の入力として使用する．

Flow-based method

VGGによる特徴はクラス分類のための特徴なので，回転や移動などの不変性がある．
しかし，音声を生成する場合は微妙な動きも，犬が吠える，などの音声生成に必要なため，明示的に動きの情報を取り入れるためにオプティカルフローを使用する．

4.どうやって有用だと検証した？

VEGAデータセットを用いて実験．
動画の長さは短いものは繰り返すことで１０秒に固定

Qualitative visualization

上から，Frame,Sequence,Flowの方法で生成した音声と一番下はオリジナルの音声
列車が近づきに連れて音が大きくなるような音声が作れている．
花火のFlowで余分な音が生成されているが動画にはあっているらしい．
詳しくは動画を

Numerical evaluation

Loss

平均クロスエントロピーによる評価

Human evaluation experiments

人による評価
対応する動画と音声を見せて，偽物かどうかの質問をした結果．
7割の動画で本物と間違わせられることができる音声を生成できている．

5.議論はあるか？

音声生成のためのデータセットを作成
生成した音声は７割の人を騙すことができた
将来的には，音声生成中に物体の認識と推測を行いたい

J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter. Au- dio set: An ontology and human-labeled dataset for audio events. In ICASSP, 2017. ↩
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, S. Jain, J. Sotelo, A. C. Courville, and Y. Bengio. Samplernn: An un- conditional end-to-end neural audio generation model. ICLR, 2016. ↩
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu. Wavenet: A generative model for raw au- dio. ↩
J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei- Fei. Imagenet: A large-scale hierarchical image database. In CVPR, ↩
K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. ICLR, 2015. ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up