音声了解度推定の研究について

音響信号処理

Last updated at 2023-12-25Posted at 2023-12-25

若手フォーラムの中澤と申します。今回は、音声了解度推定に関する研究の概要を解説します。

音声了解度とは

音声了解度（intelligibility）とは、単語や文章を使用した聞き取り精度を示す指標です。この指標は、音声通信システムや音声を出力するシステムの音声品質を表す指標となります。人間の被験者を使用した主観評価によって得られ，音声を出力するシステムの性能評価を行うために重要になります。

似た指標として音声明瞭度（articulation）がありますが、こちらは無意味な単音節の音声を使用して得られる指標です。また、音声品質の別の指標として平均オピニオンスコア（Mean Opinion Score: MOS）もあります。本稿では、主に了解度に焦点を当てて解説します。

音声了解度推定

主観評価による音声了解度の測定は被験者が必要であり、長時間のリスニングテストは被験者にとって負担となることがあります。このような背景から、人間に代わって品質を評価する了解度推定方法（客観評価方法）が開発されてきました。このアプローチにより、迅速かつ効率的な音声品質の評価が可能となります。

了解度推定方法はSpeech Intelligibility Prediction（SIP）、Objective Intelligibility Measure（OIM）と呼んだりもします。了解度推定方法開発の研究の目標は、劣化した音声に対して人間の知覚結果に追従する推定器を作ることです。

SIPにはIntrusive推定方法とNon-Intrusive方法があり、それぞれの特徴を以下で説明します。

Intrusive推定方法

Intrusive（またはFull-reference）推定方法では、評価対象音声と対応するクリーン音声（レファレンス音声）を入力して了解度を推定します。この方法では、評価対象音声とクリーン音声とのSNRや相関を用いた演算により評価音声の了解度を推定します。

利点：
クリーン音声を使用することでより精密な了解度評価が行えるというメリットがあります。例えば評価音声中から了解度に関係する有音区間のみを切り出して演算する処理が可能です。

欠点：　
クリーン音声が必要なことです。実利用時にはクリーン音声が手に入らない場合があるため，利用環境が限られてしまします。また評価対象音声とクリーン音声の時間同期が取れていない場合に推定精度が低下する可能性があるということも報告されています[1]。

代表的なモデル：

Speech Intelligibility Index (SII)
Speech Transmission Index (STI)
Short-time Objective Intelligibility Measure (STOI)
Hearing-aid Speech Perception Index (HASPI)
Gammachirp Envelope Distortion Index (GEDI)
Gammachirp Envelope Similarity Index (GESI)

Non-Intrusive推定方法

Non-Intrusive推定方法では評価対象音声化のみから了解度を推定します。Non-Intrusive推定方法の1つであるSRMRでは音声信号の包絡線の低周波成分は音声の成分であり，高周波成分はノイズの成分であるという仮定を用いて了解度を推定しています。

利点：
クリーン音声を必要としない点です。これにより、さまざまな状況下で容易に音声品質の評価が可能になります。

欠点：
クリーン音声を使用できないことです。クリーン音声を使用できないため目標音声成分とノイズ成分の区別が困難になり、音声がどの程度劣化しているか正確に分からないためIntrusive方法に比べて精度が低いことがあります。

代表的なモデル：

Speech-to-Reverberation Modulation Energy Ratio (SRMR)
Average Modulation-spectrum Area (ModA)

モデルごとの劣化要因への耐性

音声の劣化要因には加算性雑音、残響、非線形歪などがあり、各SIPモデルはこれらの要因に対する推定精度に差があります。例えばSTOIは広く使用されていますが、残響により劣化した音声に対しては推定精度が低いという報告があります[2]。

近年の傾向

実用性を重視してNon-intrusive推定方法の開発が活発化しています。また、深層学習を用いた推定法の開発が注目されています。従来のSNRなどの特徴量の線形結合での推定から、DNNを使用した方法への移行が見られます。また特徴抽出もDNNに組み込んだend-to-endなモデルなど様々なモデルが開発されています。

主観評価ラベル付きデータの紹介

SIPモデリングや検証を行うためには、評価対象音声とそれに対する主観了解度のラベルが付いたデータセットが必要です。近年データセットが公開されるようになってきています。

CPCデータセット：了解度推定のコンペティションClarity Prediction Challenge (CPC)で配布されているデータセットです。主観了解度だけではなく音源やノイズの空間的位置、オージオグラムなどの被験者個人の聴覚特性の値も含まれています。
TMHINT-QI：了解度とMOSの両方の主観評価ラベルが付いた中国語のデータセットです。

参考文献

1.Chen, Fei, and Shixiong Chen. 2018. “Compensating the Effect of Signal-Processing Delay on Objective Intelligibility Prediction.” In 2018 IEEE 23rd International Conference on Digital Signal Processing (DSP), 1–4.
2. Santos, João F., Mohammed Senoussaoui, and Tiago H. Falk. 2014. “An Improved Non-Intrusive Intelligibility Metric for Noisy and Reverberant Speech.” In 2014 14th International Workshop on Acoustic Signal Enhancement (IWAENC), 55–59. IEEE.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up