From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
近年、大規模言語モデル(LLM)は自然言語処理(NLP)の分野において飛躍的な進歩を遂げています。しかし、従来のLLMは主に テキストのみ を対象としており、音声データを直接処理する能力を持ちません。一方で、音声データの活用は、音声認識(ASR)、音声翻訳(ST)、対話システムの改善に不可欠であり、音声とテキストの両方を処理できる マルチモーダルLLM の開発が求められています。
本研究では、既存の TOWER モデルを拡張し、新たに 音声処理能力 を付与することで、マルチモーダル適応を可能にする SPIRE を開発しました。特に、音声の離散化(Discretization) を利用し、音声をテキストと同様に処理する手法を提案することで、従来の翻訳能力を維持しながら音声認識と翻訳のタスクを追加しました。
論文情報
- タイトル: From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM
- リンク: arXiv:2503.10620
- 発表日: 2025年3月13日
- 著者: Kshitij Ambilduke, Ben Peters, Sonal Sannigrahi, Anil Keshwani, Tsz Kin Lam, Bruno Martins, Marcely Zanon Boito, André F.T. Martins
- 所属: Paris-Saclay University, Instituto de Telecomunicações, Universidade de Lisboa, Sapienza University of Rome, University of Edinburgh, INESC-ID, NAVER LABS Europe, ELLIS Unit Lisbon, Unbabel
背景と目的
LLMの限界とマルチモーダル化の必要性
LLMは、機械翻訳、要約、質問応答などのタスクにおいて テキストベースの処理 で高い精度を達成しています。しかし、音声はコミュニケーションにおいて極めて重要な役割を担っており、LLMが音声を直接処理できるようになれば、対話システムやマルチモーダルAIの分野で大きな進展が期待できます。
現在、LLMに音声処理能力を統合する方法として、以下の3つの主要なアプローチが存在します。
-
ASRを介したテキスト変換
- 既存のASRシステム(Whisperなど)で音声をテキストに変換し、その後LLMで処理。
- ただし、ASRの誤認識がLLMにそのまま伝わるため、誤りの補正が難しい。
-
モダリティプロジェクション
- 音声の特徴をLLMの埋め込み空間に適応させ、直接入力。
- 高精度だが、大量のデータと計算コストが必要。
-
音声の離散化(Discretization)
- 音声を「離散化された音声単位(DSUs: Discrete Speech Units)」に変換し、テキストと同様に処理可能にする。
- 追加のパラメータがほとんど不要で、既存のLLMを活用できるためコストが低い。
本研究では、音声の離散化 を活用し、TOWERに音声処理能力を統合することで SPIRE を開発しました。
研究の焦点
SPIREの設計とアーキテクチャ
SPIREは、TOWERを基盤として、音声処理能力を統合する シンプルかつ効果的なアプローチ を実装しました。その設計の主な特徴は以下の通りです。
-
音声の離散化
- HuBERT(Hsu et al., 2021) を用いて音声特徴を抽出。
- k-meansクラスタリング(K=5000) を適用し、連続的な音声信号をDSUsに変換。
- これにより、音声を「テキストのような形式」でLLMに入力可能に。
-
2段階の学習プロセス
-
継続事前学習(CPT: Continued Pre-Training):
- TOWERの既存のテキストデータと、離散化した音声データを組み合わせて学習。
-
インストラクションチューニング(IT: Instruction Tuning):
- 追加のASR・STデータを使用し、実用的なタスクへの適応を強化。
-
継続事前学習(CPT: Continued Pre-Training):
-
翻訳性能の維持
- 従来のTOWERの機械翻訳能力を損なわず、新たに音声認識・翻訳機能を追加。
実験の概要と結果
音声認識(ASR)
評価データセット
- Librispeech(clean / other)
- FLEURS
- VoxPopuli
主要な結果
- SPIREFULLは HuBERT-CTCベースのASRモデル を超える精度を達成。
- Whisper-large-v3には及ばないが、Whisper-baseを超える性能 を示す。
- CPTとITの組み合わせが、ASR精度向上に不可欠であることを確認。
機械翻訳(MT)
評価データセット
- FLORES-200
- WMT23(英↔独・露・中)
主要な結果
- SPIREFULLは TOWERの翻訳性能を維持。
- SeamlessM4Tよりも高い翻訳精度を達成。
- 音声データの統合による翻訳能力の低下は見られず、TOWERと同等の性能を発揮。
音声翻訳(ST)
評価データセット
- FLEURS(英↔多言語)
- CoVoST-2(英↔独・中)
主要な結果
- 直訳(Direct ST): SeamlessM4Tには及ばないが、競争力のある結果を示す。
- 自己カスケード(Self-Cascade ST): SPIREFULLは SeamlessM4Tよりも頑健な性能 を示し、より安定した翻訳が可能に。
まとめと今後の展望
SPIREは、TOWERの翻訳能力を維持しながら、新たに音声認識・翻訳機能を統合することに成功しました。本研究の結果から、音声の離散化を活用したLLMの拡張が実用的である ことが示されました。
今後の課題
- 多言語対応: mHuBERT-147 を活用し、多言語対応を目指す。
- 音声生成(Text-to-Speech, TTS): 現状はテキスト出力のみ。音声出力の統合も検討。
- さらなる最適化: 高精度な音声モデルと競争するための微調整が必要。
SPIREの登場により、LLMを音声モーダルに適応させる新たなアプローチが開かれました。今後の発展に期待が高まります。