0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

深層学習 Day 4 - WaveNet のまとめ

Last updated at Posted at 2020-11-29

この記事は個人的なお勉強用のメモです。

講義

WaveNet

概要

音声生成モデル(音声認識モデルではない)
音声にもかかわらず、Pixel CNN で処理できる。(RNN ではない)

Dilated Convolution

層が深くなるにつれて、畳み込みリンクを離す

Dilated = 1,2,4,8

特徴

パラメータ数に対する受容野が広い。
(1つの出力に利用する複数のパラメータについて、音声の場合は時間が長い)

関連記事

黒本で補習。
WaveNetとは。

数式
p(x)=\Pi_{t=1}^T p(x_t|x_1,x_2,...,x_{t-1})

$t$ より前のすべての時刻ステップをサンプルにする。

構成

コーザル畳み込み(Causal convolution)とダイレイト畳み込み(dilated convolution)の組み合わせ。

コーザル畳み込み(Causal convolution)
  • 過去の時刻ステップだけを用いて畳み込む
  • モデルが入力データの時間順序を破らない
  • 再帰結合を持たないため、RNN に比べて計算が高速
  • 画像処理におけるマスク畳み込み(masked convolution)と似通っている
  • 受容野は広くできない(この点はダイレイト畳み込みでカバー)
ダイレイト畳み込み(dilated convolution)
  • 少ないパラメータで広い範囲を畳み込む
  • フィルタを適用する入力データの場所を数ステップずつスキップ
  • フィルタを入力データの場所の長さに比べて長い領域に適用
拡大度(dilation)

dilationが1なら通常の畳込み、2なら1つ飛ばし、8なら7つ飛ばし。
dilationは出力層に向かうほど大きくなる。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?