結論
「音声を綺麗にする技術」の総称。
ノイズ除去、残響除去、帯域拡張など、音声の品質を向上させるタスク全般を指す。
Speech Enhancement vs 音源分離
┌─────────────────────────────────────────────────────────┐
│ │
│ 【Speech Enhancement(音声強調)】 │
│ │
│ 入力: 劣化した音声(ノイズ、残響、帯域制限など) │
│ 出力: クリーンな音声(1つ) │
│ │
│ タスク: 「音声 + ノイズ」→「音声」 │
│ │
│ ──────────────────────────────────────────── │
│ │
│ 【Speech Separation(音源分離)】 │
│ │
│ 入力: 複数の音が混ざった音声 │
│ 出力: 分離された個別の音源(複数) │
│ │
│ タスク: 「音声A + 音声B」→「音声A」と「音声B」 │
│ │
└─────────────────────────────────────────────────────────┘
図解:何が違う?
【Speech Enhancement(音声強調)】
🎤 + 🔊雑音 + 🏠残響
↓
┌─────────────┐
│ SEモデル │
└─────────────┘
↓
🎤 ← クリーンな音声1つ
【Speech Separation(音源分離)】
🎤A + 🎤B + 🎤C(3人が同時に喋っている)
↓
┌─────────────┐
│ SSモデル │
└─────────────┘
↓
🎤A 🎤B 🎤C ← 分離された3つの音声
Speech Enhancementのサブタスク
┌────────────────────┬────────────────────────────────────┐
│ サブタスク │ 説明 │
├────────────────────┼────────────────────────────────────┤
│ Speech Denoising │ 背景ノイズの除去 │
│ (ノイズ除去) │ エアコン、車、カフェの雑音など │
├────────────────────┼────────────────────────────────────┤
│ Dereverberation │ 残響(リバーブ)の除去 │
│ (残響除去) │ 部屋の反射音を取り除く │
├────────────────────┼────────────────────────────────────┤
│ Bandwidth Extension│ 帯域拡張 │
│ (BWE) │ 電話音声(8kHz)→ 高音質(48kHz) │
├────────────────────┼────────────────────────────────────┤
│ Declipping │ クリッピング歪みの修復 │
│ │ 音割れした音声の復元 │
├────────────────────┼────────────────────────────────────┤
│ Packet Loss │ パケットロスの補完 │
│ Concealment │ 通信で欠落した部分を補間 │
├────────────────────┼────────────────────────────────────┤
│ Codec Artifact │ 圧縮による劣化の修復 │
│ Removal │ MP3、AACなどの圧縮ノイズ除去 │
└────────────────────┴────────────────────────────────────┘
なぜ今Speech Enhancementが熱いのか
┌─────────────────────────────────────────────────────────┐
│ │
│ 【リモートワーク・オンライン会議の爆発的普及】 │
│ │
│ ・Zoom、Teams、Meetの通話品質向上 │
│ ・在宅勤務の雑音(子供、ペット、工事音)除去 │
│ ・低品質マイクでもクリアな音声 │
│ │
│ 【音声認識(ASR)の前処理として】 │
│ │
│ ・ノイズが多いと音声認識精度が激落ち │
│ ・SEで前処理すると認識率が大幅向上 │
│ ・Siri、Alexa、Google Assistantの裏側 │
│ │
│ 【補聴器・医療機器】 │
│ │
│ ・リアルタイム、低遅延が必須 │
│ ・省電力で動作する必要がある │
│ ・DeepFilterNetなどの軽量モデルが活躍 │
│ │
└─────────────────────────────────────────────────────────┘
技術的アプローチの変遷
【従来手法(信号処理ベース)】
・スペクトルサブトラクション
・ウィーナーフィルタ
・ビームフォーミング(マルチマイク)
→ 定常ノイズには有効、非定常ノイズに弱い
【深層学習時代(2015年〜)】
・DNN(Deep Neural Network)
・RNN / LSTM / GRU
・U-Net構造
→ 非定常ノイズにも対応、性能大幅向上
【Transformer時代(2020年〜)】
・Self-Attention機構
・Conformer
・Mamba(State Space Model)
→ さらなる性能向上、長い音声への対応
【現在のトレンド(2023年〜)】
・複素スペクトル処理(振幅+位相)
・Dual-Domain(時間領域+周波数領域)
・軽量化・リアルタイム化
・Universal SE(複数タスクを1モデルで)
処理ドメイン
┌────────────────┬────────────────────────────────────────┐
│ ドメイン │ 説明 │
├────────────────┼────────────────────────────────────────┤
│ 時間領域 │ 波形をそのまま処理 │
│ (Time-domain) │ Conv-TasNet、DEMUCS など │
├────────────────┼────────────────────────────────────────┤
│ 周波数領域 │ STFT後のスペクトログラムを処理 │
│ (TF-domain) │ 振幅マスク、複素マスク │
├────────────────┼────────────────────────────────────────┤
│ Dual-Domain │ 両方を組み合わせる │
│ │ 最近のSOTAモデルに多い │
└────────────────┴────────────────────────────────────────┘
マスク推定 vs 直接推定
【マスク推定(Masking)】
ノイズ入り音声のスペクトログラムに「マスク」を掛けて
ノイズ成分を抑制する。
ノイズ入りスペクトログラム × マスク = クリーンスペクトログラム
マスクの種類:
・IRM(Ideal Ratio Mask)
・IBM(Ideal Binary Mask)
・cIRM(complex Ideal Ratio Mask)← 位相も考慮
【直接推定(Direct Estimation)】
クリーンな音声を直接予測する。
マスクを介さないので、より柔軟。
ノイズ入り音声 → モデル → クリーン音声
最近のモデル(MP-SENet等)は振幅と位相を並列で直接推定。
評価指標
┌────────────┬──────────────────────────────────────────┐
│ 指標 │ 説明 │
├────────────┼──────────────────────────────────────────┤
│ PESQ │ Perceptual Evaluation of Speech Quality │
│ │ 音声品質の主観評価を予測(1.0〜4.5) │
│ │ ★最も重要な指標★ │
├────────────┼──────────────────────────────────────────┤
│ STOI │ Short-Time Objective Intelligibility │
│ │ 明瞭度(聞き取りやすさ)を評価(0〜1) │
├────────────┼──────────────────────────────────────────┤
│ SI-SNR │ Scale-Invariant Signal-to-Noise Ratio │
│ │ スケール不変のSNR、dB単位 │
├────────────┼──────────────────────────────────────────┤
│ DNSMOS │ Deep Noise Suppression MOS │
│ │ Microsoftが開発、参照音声不要 │
│ │ SIG(音声品質)、BAK(背景)、OVL(総合)│
├────────────┼──────────────────────────────────────────┤
│ CSIG/CBAK │ Composite Measures │
│ /COVL │ 音声品質、背景ノイズ、総合品質 │
└────────────┴──────────────────────────────────────────┘
代表的なベンチマークデータセット
┌─────────────────────┬────────────────────────────────────┐
│ データセット │ 説明 │
├─────────────────────┼────────────────────────────────────┤
│ VoiceBank+DEMAND │ 最も有名なベンチマーク │
│ │ 16kHz、約11,000訓練/800テスト │
│ │ SOTAモデルの比較に使用 │
├─────────────────────┼────────────────────────────────────┤
│ DNS Challenge │ Microsoft主催のチャレンジ │
│ │ 大規模、多様なノイズ │
│ │ 48kHz対応 │
├─────────────────────┼────────────────────────────────────┤
│ WHAM! / WHAMR! │ WSJ0Mixにノイズ/残響を追加 │
│ │ 分離+強調のベンチマーク │
├─────────────────────┼────────────────────────────────────┤
│ REVERB Challenge │ 残響除去のベンチマーク │
│ │ 実環境録音を含む │
└─────────────────────┴────────────────────────────────────┘
現在のSOTAモデル(2024-2025年)
VoiceBank+DEMANDベンチマークでの代表的なモデル:
| モデル | PESQ | 特徴 |
|---|---|---|
| MP-SENet | 3.60 | 振幅+位相を並列推定、Transformer |
| Mamba-SEUNet | 3.59 | Mamba(SSM)ベース、軽量 |
| MossFormer2 | 3.57 | Transformer + RNN-free |
| FRCRN | 3.24 | 周波数リカレンス、軽量 |
| DeepFilterNet3 | 3.03 | 超軽量、リアルタイム |
→ 各モデルの詳細は個別記事で解説
関連記事
本記事をハブとして、以下の個別モデル解説記事へ:
- DeepFilterNet編 - 軽量・リアルタイム特化
- FRCRN編 - 周波数リカレンスで高精度
- MP-SENet編 - 振幅+位相並列推定でSOTA
- MossFormer編 - Gated Transformerで高性能
- Mamba-SEUNet編 - 新世代SSMアーキテクチャ
まとめ
| 項目 | Speech Enhancement | Speech Separation |
|---|---|---|
| 目的 | 音声を綺麗にする | 混合音を分離する |
| 入力 | 劣化した音声 | 複数音源の混合 |
| 出力 | クリーンな音声(1つ) | 分離された音源(複数) |
| タスク例 | ノイズ除去、残響除去 | 話者分離、楽器分離 |
語呂合わせ
「SE = 音を"清潔"にする、SS = 音を"整理"する」
Speech Enhancement は清掃(クリーニング)、
Speech Separation は整理(仕分け)。
音声処理シリーズ、お役に立てたらフォローお願いします!