WaveNet
WaveNetとは、Google傘下のAI開発企業・DeepMindが開発した、人間の自然な音声を生成するためのディープニューラルネットワークの一つです。WaveNetは、音声波形の生成モデルとして、ディープラーニングを用いて大量の音声データから学習し、毎秒16,000サンプルで音声を作成します。WaveNetは、従来の音声生成技術よりも高い品質と自然さを実現し、スマートスピーカーなどの対話型音声応答システムに搭載されています。
WaveNetの特徴
WaveNetは、音声波形を点として考える方式を取っており、単純化や近似といった劣化を生むプロセスがないため、自然な発音に近づきます。
WaveNetは、音声波形の生成モデルとして、Dilated Causal Convolutionsという特殊な畳み込み層を用いて、長い時系列の依存関係を捉えます。
WaveNetは、音声生成だけでなく、音声認識や音声変換などの他の音声タスクにも応用できます。
WaveNetは、Googleアシスタントと呼ばれる対話型音声対応システムに搭載されており、インターネットに接続可能でGoogleアシスタントが使用できる製品であれば、WaveNetが作り出す人間のような自然な音声と対話ができます。
WaveNetの流れ
①音声データをサンプリングして量子化し、音声波形を数値の列に変換。
②数値の列をWaveNetのモデルに入力し、ディープラーニングによって音声波形の確率分布を学習。
③学習した確率分布に基づいて、新しい音声波形を生成。
WaveNetの構造
https://www.jstage.jst.go.jp/article/jasj/74/7/74_387/_pdf
メル尺度
人間の聴覚、すなわち音の聞こえ方に基づいた尺度。
とりあえず、メル尺度の差が同じであれば、人間が感じる音高の差も同じ。
CTC
CTCとは、音声認識の手法。
従来の音声認識の手法だと、アノテーションが超面倒だった。
(例えば、「1:01~1:03までは『あ』と発音してます」みたいなアノテーションが必要だったらしい。)
それがいらなくなった。『「あいうえお」としゃべってます』でOKになった。
詳しくは以下のサイトを見ればOK