こんにちは.東京大学大学院学際情報学府の山下夏生です.
日立製作所研究開発グループ2021年度夏季インターンシップに参加し,そのときの研究成果をもとに半年間ほどインターンシップを継続し,論文投稿(2022/2)や学会発表(2022/6)まで行いました.
インターンシップでは,End-to-End型の話者ダイアライゼーション手法の1つであるEnd-to-End Neural Diarization(EEND)の学習に用いる会話データの新しいシミュレーション手法を提案しました.結果,より実データに近いシミュレーションデータ生成に成功し,そのシミュレーションデータを用いて学習を行うことで,EENDの性能向上も達成しました.
本研究の成果は,国際学会であるOdyssey 2022でにて,”Improving the Naturalness of Simulated Conversations for End-to-End Neural Diarization”というタイトルで発表しました.論文はこちらで公開されています.
研究背景
話者ダイアライゼーションは,複数話者音声から「いつ誰が話したのか」を識別する技術で,議事録アプリや会話AIなどへの活用が見込まれています.
話者ダイアライゼーションに対するアプローチの1つに,音声区間検出,話者特徴量抽出,話者類似度のスコアリング,クラスタリングといった複数のモジュールを連結した手法があります.このアプローチでは,それぞれのモジュールを別々に学習する必要があります.
一方,End-to-End Neural Diarization(EEND)[1]に代表されるEnd-to-End型のアプローチでは,複数話者音声を入力として各話者の発話区間を1つのネットワークで推定します.このシンプルな構造とその性能の高さから,近年注目を集めています.
一般にニューラルネットワークを学習するには大量のデータが必要となりますが,複数話者の発話区間がラベル付けされた音声データはさほど多くありません.そのため一般的にEENDの学習は,まずシミュレーション会話データによって事前学習し,その後実データでドメイン適応するという手順で行われます.シミュレーション会話データの作成には,話者認識や音声認識などで用いられる1話者の音声からなるデータセットを活用することができるため,複数話者音声の量の少なさを解決することができます.
しかし,ここで使われるシミュレーション会話データをどのように作成すればよいのかについては,これまで十分に検討されてきませんでした.本研究ではEENDの学習に使用するシミュレーション会話データをより自然な会話データに近付けることで,EENDの性能向上を図りました.
従来手法(Concat-and-Sum)
従来手法 [1]では,以下の図のように,まず無音区間を挟みながら各話者の発話を結合(Concat)し,これにより得られた話者毎の長い音声を足し合わせる(Sum)ことで,複数話者のシミュレーション会話音声としていました.
しかし,ここでは異なる話者の発話の関係が考慮されておりません.以下に2話者の実際の会話(a, b)と上記従来手法によるシミュレーション会話(c, d)の例を示します(βは平均無音区間長).シミュレーション会話では2人の話者が交互に発話できておらず,不自然に発話の間が空いたり,長時間同時に発話したりしていることが分かります.
提案手法
本研究では,自然な話者交替(Turn-Taking)を実現できるようなシミュレーション手法を提案しました.まず発話の遷移タイプとして,①同じ話者が連続して発話するタイプ,②一方の話者が発話し終わってから他方の話者が発話するタイプ,③一方の話者を遮って他方の話者が発話するタイプ,④一方の話者の発話中に他方の話者が発話するタイプの4種類を定義しました.そして,実際の会話と同じように前から順に次の話者と発話の遷移タイプを決定することで,シミュレーション音声を作成しました.
また,発話タイプを上記4つの遷移タイプから選ぶ方法としては,4つから毎回ランダムに選ぶ方法と,1階のマルコフ過程モデルに従って選ぶ方法を検証しました.
実験
従来のシミュレーション手法と提案手法により生成した2話者のシミュレーション会話データを用いて検証を行いました.
実データにはCALLHOMEデータセットをドメイン適応用(CALLHOME1)と評価テスト用(CALLHOME2)に分割して用いました.また評価にはCorpus of Spontaneous Japanese (CSJ)も評価に用いました.
シミュレーションデータの生成には,Swithboard-2, Switchboard cellular, NIST Speaker Recognition Evaluationデータセットから抽出した発話セットを用いました.
まず,生成されたシミュレーションデータが実際の会話データにどの程度類似しているかを確認しました.以下の表の通り,提案手法を用いて生成したシミュレーションデータは,会話に占める無音区間(Silence)や発話重複区間(Overlap)の割合(Silence/Overlap Ratio)が,従来手法よりも実データに近付いたことが確認できました.
また,シミュレーションデータにおける無音区間と発話重複区間の長さの分布が,実データ(CALLHOME1)における分布とどの程度類似しているかも評価しました.書く類似度(Silence/Overlap Similarity)の算出にはEarth Mover’s Distance [2]を用いました.以下の表の通り,提案手法を用いて生成したシミュレーションデータは,実データとの類似度がそれぞれ高くなることが分かりました.
以下の(e)と(f)に提案手法を用いて生成したシミュレーション会話の例を示します.従来手法よりも,複数人の話者による発話の交替や無音各館,発話重複区間などが実データにちかいものとなっていることが分かります.
また,従来手法及び提案手法により生成したシミュレーションデータを用いてEENDを事前学習した際のダイアライゼーション誤り率を以下の表に示します.音声エンコーダにはTransformer [3]とConformer [4]を用いた場合を検証しました.
特にマルコフ過程に従って遷移タイプを選択することで生成したシミュレーションデータを用いた場合に,ダイアライゼーションエラー率を削減できることが分かりました.
おわりに
本研究では,自然な話者交替(Turn-Taking)となるように会話をシミュレーションする手法を提案し,EENDの性能向上を達成しました.
3週間のサマーインターンで研究に携わらせて頂いただけでなく,その後もインターンを継続し,研究成果を論文投稿や学会発表という形で対外発表する機会まで頂きました.日立での働き方を知るだけでなく,自身の研究者としての経験や成長という意味でも,非常に有意義な時間を過ごすことができました.
参考文献
[1] Yusuke Fujita, Naoyuki Kanda, Shota Horiguchi, Yawen Xue, Kenji Nagamatsu, and Shinji Watanabe, “End-to-end neural speaker diarization with self-attention,” in ASRU, 2019, pp. 296–303.
[2] Yi Chieh Liu, Eunjung Han, Chul Lee, and Andreas Stolcke, “End-to-end neural diarization: From transformer to conformer,” in INTERSPEECH, 2021, pp. 3081–3085.
[3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin, “Attention is all you need,” in NeurIPS, 2017, pp. 5998–6008.
[4] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, et al., “Conformer: Convolution-augmented transformer for speech recognition,” in INTERSPEECH, 2020, pp. 5036–5040.