音声合成・激動の10年を振り返る

Last updated at 2020-12-16Posted at 2020-12-16

はじめに

この記事は2020年のRevCommアドベントカレンダー16日目の記事です。 15日目は@kyogomさんの「ファイルシステムをCase-sensitiveに設定しておこう for Mac」でした。

私は@shuheikatoinfoです。将来の弊社製品搭載を目指して音声合成（テキストを音声に変換する装置）を研究開発しております。音声合成は2020年現在非常に盛り上がっておりまして、この記事では、そんな音声合成の激動の10年を振り返ります。

音声合成って何？

音声合成とは、広義には何らかの入力を音声（人間の話す声）に変換することを指します。今日最も一般的なのは入力がテキスト（文字列）の場合で、この場合は特別にテキスト音声合成 (Text-to-Speech; TTS) と呼ぶこともあります。つまり、テキストを機械が読み上げてくれるということですね。いわゆるボーカロイドの話し声版だと思ってくださって構いません。

音声合成はどこで使われてるの？

2020年現在、音声合成による音声（合成音声）は身の回りで頻繁に耳にすることができます¹。コールセンターなどでの電話の自動応答（○○に御用の方は、1を…）では長年使われているほか、ATMやコピー機、バスの車内放送、各種交通ターミナルでの構内放送、ハイウェイラジオ、カーナビ、テレビのナレーション²をはじめとする放送関係、そして最近ではスマートスピーカー（音声アシスタント）などです。

音声合成はその品質の向上とともに利用場面が年々増えており、皆様が思っていらっしゃるよりは、遥かに多くの場面で耳にされているはずです。

音声合成・激動の10年

そんな音声合成ですが、ここ10年は激動の10年だったと言ってよいでしょう。一言で言えば、歴史上初めて、限られた条件下ではあるものの自然音声（人間が話す音声）とほぼ遜色のない音声が合成できるようになったからです。

2011年–2012年: まだ牧歌的な時代

私が音声合成に触れ始めたのもこの時期でしたが、今思えば、まだ牧歌的な時代でした。この頃の音声合成は主に**波形接続式音声合成（単位選択型音声合成）**という、録音した音声を入力テキストに合わせて切り貼りする方式が主流でした。この方式は様々なメリットがあり、商業的には2020年現在でも広く使われています。しかし、全体の品質としては、自然音声と同等とは言い難いものでした³。

また、**隠れマルコフモデルに基づく音声合成（HMM音声合成）**という、統計的な手法を用いた音声合成（統計的音声合成）もこの頃には既に商業的に使われていましたが、残念ながら一瞬で合成音声だと分かるような品質のものでした。なお、HMM音声合成は比較的軽量であることから、その音声はロボットや家電などで、現在でもよく耳にすることができます。

2013年: 深層学習に基づく音声合成の登場

画像処理の分野では一足先に一世を風靡していた深層学習（ディープラーニング）ですが、この年、音声合成にもその波がやってきました。草分けの論文 (Zen+ 2013) の時点では、まだHMM音声合成を大きく超える品質ではなかったものの、深層学習という巨人はこの後猛烈な速さで進化を遂げることになります。

2016年: WaveNetの登場

（テキスト）音声合成は入力テキストを音声に変換することを指しますが、テキストを音声に直接変換することは極めて困難であったために、伝統的に以下の3つの過程に分割されてきました⁴。

テキストを言語特徴量⁵に変換する
言語特徴量を音響特徴量⁶に変換する
音響特徴量を音声波形に変換する

このうち3の過程を担当するモデルを専門用語でボコーダー (vocoder) と呼びますが、従来は信号処理に基づくものが主流でした。信号処理に基づくボコーダーは、自然音声の音響特徴量を入力した場合には（適切な条件下では）十分に高品質な音声波形を生成できるものの、合成音声の音響特徴量を入力した場合にはそれほど高品質な音声波形を生成できないという問題がありました⁷。

ところがこの年、WaveNet (Oord+ 2016) という深層学習をベースとした画期的なモデルが登場したことで⁸、ボコーダーの世界はすっかり変わってしまいました。WaveNetは従来の信号処理に基づくボコーダーよりも遥かに高品質な音声波形を生成してしまったのです。WaveNetのように深層学習に基づくボコーダーをニューラルボコーダーと呼びますが、WaveNetの登場以来、今日に至るまで様々なニューラルボコーダーが提案されています。

2017年: ついに人間に追いつく

先程、音声合成は伝統的に3つの過程に分割されてきたと言いましたが、3つの過程それぞれを別々のモデルで行っていては全体最適を達成することが難しくなってしまうのは容易に想像できます。2017年はこれを解決する第一歩として、1と2の過程を統合したモデルが登場しました。このようなモデルはend-to-endモデルと呼ばれています⁹。end-to-endモデルは従来のモデルを凌駕する性能を発揮して、ついにこの年の12月に登場したTacotron 2 (Shen+ 2017) は、WaveNetボコーダーとの組み合わせにより自然音声と同程度の品質を達成することに成功しました。これは英語の読み上げ音声という限られた条件下ではありますが、音声合成の歴史の中で研究者たちが長年見てきた夢が叶った瞬間でもありました。

なお、日本語など他の言語の場合や、読み上げ音声（アナウンスやナレーションなどのような音声）以外の音声の場合は、まだ自然音声と同等の品質を達成しているとは限りません。また、（end-to-endでない）深層学習に基づく音声合成モデルやニューラルボコーダーは広く商業的に使われていますが、end-to-endモデルの使用例は現在のところ多くはありません。

次の10年、音声合成はどこへ向かう？

英語の読み上げ音声という限られた条件下ではあるものの人間に追いついてしまった音声合成。もうやることがないのか？というと、そうではありません。RevCommにいる私を含め、世界中の音声研究者たちは次に挙げるような、さらに高い目標に向かって日々邁進しているのです。

日本語など、読み上げ音声においても自然音声と同等の品質に達していない言語での品質向上
感情を込めた音声など、様々な発話スタイル表現が可能な音声合成の品質向上
人間と自然に対話することが可能な音声合成
多言語を同じ声で高品質に発話可能な音声合成の研究（クロスリンガル音声合成）
音声合成のエンターテインメントへの本格的な応用（手前味噌ですが、私の博士課程での研究である落語音声合成もこれにあたります）

おわりに

音声合成には夢がありますね！私も、RevCommの音声合成の声を早くお聞きいただけるよう、また、新しい価値をお届けできるよう、仕事に励む所存でございます。

明日は@enotesupaさんの投稿です。お楽しみに！　

音声合成の仕事に長年従事していると、合成音声か自然音声かぐらいは、何となく分かるようになります。時には特定の製品名まで分かることもあります。 ↩
モヤモヤさまぁ〜ず2のナレーションが某芸人さんだと思っている方は多いですが、合成音声です。 ↩
「録音した音声を入力テキストに合わせて切り貼りする」ので、最も極端には入力テキストそのものを録音していた場合は当然、自然音声と同等の品質の音声が得られます。逆に、入力テキストに近い音声が存在しなければ、品質は著しく下がります。 ↩
波形接続型音声合成（単位選択型音声合成）は、2と3の過程を音声の切り貼りという方法で統合していると解釈できます。 ↩
日本語の場合だと、音素（母音や子音に相当）・アクセント・品詞などの情報。 ↩
スペクトログラム（声紋みたいなもの）、基本周波数（音の高さ）などの情報。 ↩
もちろん音響特徴量の推定精度が悪いからですが、音響特徴量を高精度に推定するのはそれはそれで難しい問題です。 ↩
WaveNetは音響特徴量を入力とすればボコーダーとして使えますが、入力は必ずしも音響特徴量でなくてもよいです。 ↩
end-to-途中ではないかという指摘はもっともですが、なぜか広くend-to-endと呼ばれています。 ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up