論文を読むついでに...
Refarence
Wisper
Data
80チャネルの メルスペクトログラム1
16000Hzに re-sample 2したデータ
pre-train用データ
計680000時間の音声データ。30秒ごとのsegmentsに分割される。
Embedding
(3×3フィルターの畳み込み)×2 + 活性化関数(GELU) + position embedding
※2層目の畳み込み層はストライドが2
Scale
-
データセット
- 計68000時間の音声データ
- 117000時間:英語以外の言語のデータ
- 125000時間:Xen翻訳データセット
- 残り:英語のデータ
- 計68000時間の音声データ
論文の内容ざっくりと
Abstract
多言語音声認識タスクに加え、翻訳タスク、言語識別タスクなど複数の補助タスクにも対応しているモデルについて
1. Introduction
いんとろだくしょん!
2.Approach
2.1 Data Processing
- データの収集
- 収集したデータの前処理
- 不要な記号などの削除
- 文字の正規化やクリーニング
- 字幕テキストを音声トランスクリプトに変換
- 音声認識モデルを使用
- 字幕データから音声をテキストに変換(ノイズが反映されたりする)
- 音声トランスクリプトに対して追加のクリーニングとフィルタリング
- ノイズの排除や品質の向上
2.2 Model
提案モデルはRNNベースのモデル(LSTM)
入力は音声トランスクリプトで、音声フレームシーケンスとの対応関係を学習する。
- 音声フレームシーケンス
- 音声記号を短時間スライスしたもの
- 各フレームに対して音素または単語のラベルが付与される
2.3 Multitask Format
音声認識のタスクに加え、以下のような補助タスクも同時に学習する。
- 音素の境界検出や音素クラスの予測
2.4. Training Details
トレーニング手法 | オプティマイザ |
---|---|
バッチ学習 &正則化&ドロップアウト | Adam |
"Robust Speech Recognition via Large-Scale Weak Supervision"
3.Experiments
3.1 Zero-shot Evaluation
トレーニングデータに含まれないタスクやデータに対してモデルの性能を評価する手法
今回の論文では教師データから生成された音声トランスクリプトを使用してトレーニングしたモデルが教師データに含まれない新しい音声トランスクリプトに対して正確な予測が行えるかを評価している。
3.2 Evaluation Metrics
以下の評価指標を使用
- WER(Word Error Rate)
- 音声認識システムの出力と正解トランスクリプトとの間で単語レベルでの誤り率を測定する指標。低いほうがよい
- SER(Sentence Error Rate)
- 音声認識システムの出力と正解トランスクリプトとの間で文レベルでの誤り率を計算する指標。低いほうが良い
3.3. English Speech Recognition
英語音声認識の結果について記されている。
Wisperモデルは従来のモデルと比較して優れた性能を示したとのこと
また、Zero-shot に関しても優れた性能であった。
"Robust Speech Recognition via Large-Scale Weak Supervision"
上の表で"wev2vec 2.0..."は当時のSotaモデル。LibriSpeechテストクリーンでは非常に近い評価を得られているにもかかわらず、他の音声認識データセットで評価するとRER(相対誤差)は平均して55.2%も削減できていることがわかる。従来のモデルと比較すると、Wisperは同等の精度でありながら大きな汎用性を得ている。
3.4. Multi-lingual Speech Recognition
Wisperモデルは英語に限らず複数の言語に対しても音声認識をすることができる。
上図は、言語ごとに事前学習に使用される音声認識データの量が増えるほど、対応する言語におけるゼロショットのパフォーマンスも向上する可能性が高いことを示している。言語ごとの事前学習データの量が、その言語での音声認識パフォーマンスに大きく影響することが示唆されている。学習量と正確性は強い相関が見られるが、外れ値(傾向に対して悪いパフォーマンスがでた言語)がいくつか存在する。具体的には、ヘブライ語(HE)、テルグ語(TE)、中国語(ZH)、韓国語(KO)である。これらの性能が悪いのは、訓練データの大部分を締めている印欧語族とは関係の遠い固有の文字体系を持つためであろう。
この表から、たしかにMSLベンチマークではよい結果がでている。しかし、VoxPopuliベンチマークではあまりよい結果が得られていないようだ。
VoxPopuli 上の Whisper モデルのパフォーマンスが低いのは、他のモデルには教師なし事前トレーニングデータの主要なソースとしてこの分布が含まれており、データセットには大幅に多くの教師ありデータが含まれているためであるとされている。
つまりWisperが悪いのではなく、ほかのmodelたちがズルをしているということ。
3.5. Translation
Wisperモデルでの翻訳タスクの結果が記されている。
トレーニングデータには、音声フレームシーケンス、音声トランスクリプト、および対応する翻訳テキストのペアが含まれている。トレーニング後、Wisperは音声トランスクリプトを受け取り、対応する翻訳テキストを出力する。
今回用いている評価仕様はBLEUという翻訳タスクに用いられる指標。BLEUスコアは、生成された翻訳テキストと正解の参照翻訳テキストとの間のNグラムの一致度を計算する。高いほうがよい。
表より、良い結果が得られていることがわかる。
3.6. Language Identification
言語の識別においては、Whisperのゼロショットの言語識別精度が、従来の教師あり結果と比べて劣っている。十分なトレーニングデータがない言語においては性能が悪くなるようだ。特にFleursデータセットにおける結果を従来のモデルと比較した表を見ると一目瞭然である。
3.7. Robustness to Additive Noise
Whisperの加算ノイズに対する頑健性について
結果として、ある程度のノイズレベルでは問題なく音声認識できるが、高レベルのノイズであれば影響が出るとのこと。
3.8. Long-form Transcription
長文の転写について
Whisperは長文の転写においても高い精度を示すことが示されている。
図を見ればわかる
3.9. Comparison with Human Performance
Whisperは人間のパフォーマンスに近いまたはそれを上回る精度を達成することが示されいる。結果を示した図は以下の通り
4. Analysis and Ablations
4.1. Model Scaling
モデルスケーリングの重要性
モデルのパラメータ数を38M~1549Mの範囲で評価した。
少なくともこの範囲ではパラメータ数が多いほど精度が良くなるようだ。
4.2. Dataset Scaling
今度はデータセットのサイズに関しての比較。
表の通り、大きいほど精度は良くなる