1. はじめに
法政大学情報科学部ディジタルメディア学科4年の伊藤葵です。
2022年11月から、㈱日立製作所・研究開発グループの長期インターンに参加し、音声処理に関する研究をしています。
このレポートでは、長期インターン中に行った話者照合システムに対するなりすまし攻撃を検出する研究について紹介します。
- 本インターンシップでの研究成果は、INTERSPEECH2023 に採択され、アイルランドにてポスター発表をしました。
- 名古屋工業大学で開催された日本音響学会第150回(2023年秋季)研究発表会にて口頭発表をしました。
2. 研究背景
話者照合とは、入力された音声の発話者が対象ユーザー(例: システムに登録されている話者)であるか照合する技術です。声紋認証とも呼ばれます。
近年では、マンションのエントランスやスマートスピーカーなどに搭載されており、非接触型でもあることから、今後さらなる活用が考えられる技術の一つです。
そんな話者照合システムですが、悪意のある第三者による「なりすまし」のリスクを抱えているのも事実です。このなりすまし攻撃に対し、話者照合システムに対する「なりすまし検出」の研究が進められています。
これは、話者照合システムに音声を入力する前に、入力音声が「実発話」もしくは「なりすまし音声」であるかを見極め、なりすまし音声だと判断した場合には入力音声を話者照合システムに渡さず棄却するというものです(図1)。
このなりすまし検出器を用いることで、話者照合システムがなりすまし攻撃から防衛されます。なりすまし検出器は一般に、入力音声から発話者の声の特徴を抽出する「特徴抽出部」と、実発話/なりすまし音声のどちらかに分類する「2クラス分類部」で構成されます。
従来研究では、特徴抽出部に自己教師あり学習(SSL: Self Supervised Learning)に基づくモデルを利用することで、なりすまし検出性能が向上することが示されています[1, 2, 3]。
一方、「SSLモデルが使える」というのはなりすまし攻撃側でも同様のことが言えます。
特に、SSLモデルを一から学習するのは膨大なコストがかかるため、SSLモデルを用いる場合にはインターネット上で公開されている事前学習済みモデルを使うことが多いです。そのため、攻撃側と防衛側が全く同じSSLモデルを使うケースも想定されます。
そこで本研究では、以下の2点に着目し、なりすまし攻撃側もSSLモデルを利用した際の
防衛側(なりすまし検出器)の性能を評価しました。
Q1. 攻撃側もSSLモデルを用いた場合、なりすまし検出性能は劣化するのか
Q2. 攻撃側と防衛側が同じSSLモデルを用いた場合、なりすまし検出性能に変化はあるのか
3. 従来手法: なりすまし音声を用いた攻撃
ASVspoof では、
LA (Logical Access: VoIP等による伝送 + 声質変換や音声合成を用いた攻撃) 、
PA (Physical Access: 録音音声を再生することによる攻撃) 、
DF (Deepfake: 圧縮 + 声質変換や音声合成を用いた攻撃)
といった様々ななりすまし手法に対する研究が進められています。
本研究では、声質変換・音声合成を用いた攻撃であるLA・DFタスクに焦点を当てました。
4. 提案手法: 強化したなりすまし音声を用いた攻撃
本研究では、ASVspoof LA・DFタスクで用意されているなりすまし音声に対し、SSLモデルを用いてさらなるなりすまし性能の強化を行います(図2)。
-
防衛側
なりすましを検出する防衛側は、ASVspoof ベースラインシステムを基に構築します。
このベースラインシステムでは、RawNetを特徴抽出器として用いており、本研究ではこの特徴抽出器をSSLモデルに置換します。SSLモデルの初期値には事前学習済みの重みを、学習には交差エントロピー誤差を用いました。 -
攻撃側
なりすまし検出器に対する攻撃側は、音声合成や声質変換によって生成されたなりすまし音声を、実発話と区別ができないように音声変換を試みます。
なりすまし性能を強化するモデルは、2段階で行います。
- 【Step. 1】
- 事前学習済みのSSLモデルを用いて、話者特徴量抽出器を学習
- 【Step. 2】
- Step. 1の話者特徴量抽出器を用いて、入力されたなりすまし音声のなりすまし性能を強化するモデル(Conv-TasNetを使用 / 実発話と強化したなりすまし音声それぞれの話者特徴量が区別できないよう、なりすまし音声を変換)を学習
もし、この特徴量抽出器がなりすまし音声を実発話だと誤るようなりすまし性能を強化できた場合、同じSSLモデルを基にした実際のなりすまし検出器(防衛側)も誤分類する可能性が高いといえます。
5. 評価実験
5.1. 実験条件
- 特徴量抽出器に使用したモデル
- 防衛側
- RawNet2
- wav2vec 2.0 BASE
- HuBERT BASE
- WavLM BASE
- WavLM BASE+
- 攻撃側
- なし ※元のなりすまし音声
- wav2vec 2.0 BASE
- HuBERT BASE
- 防衛側
- 使用したデータセット
- 学習: ASVspoof2019 LA Trainデータセット
- 2019 LA データセット内で使用されているなりすまし音声に基づき
発話を分割、防衛側・攻撃側それぞれの学習に割当
- 2019 LA データセット内で使用されているなりすまし音声に基づき
- 評価: ASVspoof2019 LA, 2021 LA Testデータセット
- 2019 LA: 音声合成・声質変換によって生成されたなりすまし音声
- 2021 LA: 音声合成・声質変換によって生成されたなりすまし音声
+ 様々な電話回線を用いた伝送(=エンコードや転送時の歪みあり)
- 学習: ASVspoof2019 LA Trainデータセット
5.2. 実験結果
なりすまし検出器の性能を等価誤り率(Equal Error Rate)を用いて評価します(表1)。
数値が高ければ高いほど、なりすまし検出性能が劣化していることを示します。
実験の結果から、攻撃側もSSLモデルを用いた際のなりすまし検出性能について、以下のことが分かりました。
Q1. 攻撃側もSSLモデルを用いた場合、なりすまし検出性能は劣化するのか
A1. 劣化する。
特に、歪みを含む音声(=実際の攻撃を想定したデータ)に対しては、SSLモデルの利用によって得られていた性能が失われる。
Q2. 攻撃側と防衛側が同じSSLモデルを用いた場合、なりすまし検出性能に変化はあるのか
A2. 攻撃側と防衛側が同じモデルを使用したことによる特別な検出性能低下はない。
さらに、防衛側がSSLモデルでないRawNet2を使用した際のEERは、SSLモデルを用いたときよりも高く、強化済みなりすまし音声の影響を大きく受けていることが分かります。
以上より、SSLモデルの種類にかかわらず、SSLモデルを用いた方がなりすまし性能を強化した攻撃の被害は抑えられるといえます。
6. おわりに
本記事では、長期インターンで取り組んだ研究として、攻撃側がSSLモデルを利用した際の話者照合システムにおけるなりすまし検出性能評価についてご紹介いたしました。
今回、日立製作所のインターンに参加して、技術面に関する学びはもちろん、
これまで触れてこなかった分野の研究にチャレンジすることが出来ました。
ありがとうございます!
INTERSPEECH2023で発表した論文には、本記事で紹介した内容に加え、
DFタスクでの実験結果等も載せていますので、ぜひご一読ください。
参考文献
[1] Y. Xie, Z. Zhang, and Y. Yang, “Siamese network with wav2vec feature for spoofing speech detection.” in Proc. INTERSPEECH, 2021, pp. 4269–4273.
[2] X. Wang and J. Yamagishi, “Investigating self-supervised front ends for speech spoofing countermeasures,” in Proc. Odyssey, 2022, pp. 100–106.
[3] H. Tak, M. Todisco, X. Wang, J.-w. Jung, J. Yamagishi, and N. Evans, “Automatic speaker verification spoofing and deepfake detection using wav2vec 2.0 and data augmentation,” in Proc. Odyssey, 2022, pp. 112–119.