0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

「Whisperを超えた」は本当か? ─ 2026年版・音声認識モデル最強決定戦の全貌

0
Posted at

この記事の対象読者

  • 音声認識(ASR)に興味があるエンジニア
  • LLMやAI開発の最新動向を追いかけている方
  • WhisperをプロダクトやOSSプロジェクトで使っている方
  • 「結局どのASRモデルを使えばいいの?」と悩んでいる方

この記事で得られること

  • 2026年時点のASRモデル勢力図: Whisper・Kimi-Audio・Qwen3-ASR・NVIDIA Canary・Moonshineなど主要モデルの位置づけ
  • WER/CERベンチマーク比較: LibriSpeech・AISHELL・WenetSpeechなど主要データセットでの定量比較
  • 言語別・用途別の「最適解」: 英語・中国語・多言語・エッジデバイスなど条件別の推奨モデル

この記事で扱わないこと

  • 商用APIサービス(Google Cloud Speech-to-Text、Amazon Transcribeなど)の詳細比較
  • ASRモデルのファインチューニング手法の詳解
  • 日本語ASRに特化したモデル(ReazonSpeechなど)の深掘り

1. 「Whisperを超えたらしい」── そもそも何の話?

最近X(旧Twitter)や技術系コミュニティで「MoonshotのモデルがWhisperを超えた」という噂が流れている。

私も最初に聞いたとき「Moonshot? あの月之暗面(Moonshot AI)が音声認識まで?」と思った。調べてみると、話はそこまで単純ではなかった。

実は2つの異なる「Moon系」モデルが存在する。さらに、Qwen陣営やNVIDIA陣営も猛追しており、2026年のASR界隈は群雄割拠の戦国時代に突入している。

ここまでで「Whisperを超えた」の正体が気になってきたでしょうか。次は、この記事で登場する用語を整理しておきましょう。


2. 前提知識の確認

本題に入る前に、この記事で頻出する用語を確認します。

2.1 ASR(Automatic Speech Recognition)とは

自動音声認識のこと。音声データをテキストに変換する技術。スマートスピーカーの音声入力から議事録の自動作成まで、あらゆる場面で使われている。料理に例えるなら「食材(音声)を料理(テキスト)に変換するシェフ」のような存在。

2.2 WER(Word Error Rate)とは

単語誤り率。ASRモデルの精度を測る最も一般的な指標。値が低いほど高精度。計算式は以下の通り:

WER = (置換 + 挿入 + 削除) / 参照テキストの総単語数 × 100%

例えば WER 5% なら「100単語あたり5単語間違える」ということ。人間のWERは約5〜10%と言われるので、WER 5%以下のモデルは人間並みかそれ以上の認識精度を持つ。

2.3 CER(Character Error Rate)とは

文字誤り率。中国語や日本語など、単語境界が明確でない言語で使われる。WERの「単語」を「文字」に置き換えたもの。

2.4 LibriSpeech / AISHELL / WenetSpeech とは

ASRモデルのベンチマーク用データセット。

データセット 言語 特徴
LibriSpeech 英語 ASR評価のデファクトスタンダード。test-clean(綺麗な音声)とtest-other(ノイジーな音声)がある
AISHELL-1 / 2 中国語(普通話) 中国語ASRの標準ベンチマーク
WenetSpeech 中国語 会議音声(test-meeting)やネット音声(test-net)など実環境に近いデータ
Fleurs 多言語 Googleが公開した102言語対応の多言語ベンチマーク
Common Voice 多言語 Mozillaが運営するクラウドソーシング型音声コーパス

2.5 Open ASR Leaderboard とは

HuggingFaceが運営する、オープンソースASRモデルの公開ランキング。60以上のモデルが英語・多言語・長時間音声の3カテゴリで評価されている。

これらの用語が押さえられたら、いよいよ本題 ── 「Whisperを超えた」の真相に迫っていきましょう。


3. 「Moon系」2つのモデルの正体

3.1 混同注意! Moonshine ≠ Kimi-Audio

ここが最大の混乱ポイント。 「Moonshotが作ったASRモデルがWhisperを超えた」という噂は、実は2つの別々のモデルが混ざっている可能性がある。

項目 Moonshine Kimi-Audio
開発元 Useful Sensors(米国スタートアップ) Moonshot AI / 月之暗面(中国)
発表時期 2024年10月 2025年4月
モデルの性質 ASR特化(軽量・エッジ向け) 汎用オーディオ基盤モデル(ASR + TTS + 音声対話 + 感情認識...)
パラメータ数 27M(Tiny)/ 62M(Base) 7B(Qwen2.5-7Bベース)
対応言語 英語のみ 英語 + 中国語 + 多言語
ライセンス MIT MIT(コードはApache 2.0混在)
Whisperとの比較 同等精度で5倍速い(エッジ特化) WER値で明確に上回る(精度特化)

3.2 Moonshine: Whisperと「同等精度で5倍速い」

Useful Sensors社のMoonshineは、WhisperのアーキテクチャをRoPE(Rotary Position Embedding)で改良し、可変長入力に対応した。

Whisperは30秒の固定長エンコーダを持ち、短い音声にはゼロパディングが必要だった。Moonshineはこれを撤廃し、音声の長さに比例した計算量で処理する。

Moonshine v2(2026年2月発表)では、スライディングウィンドウアテンションを導入し、Tiny版で50ms(Whisper Tinyの5.8倍速)、Medium版で258ms(Whisper Large v3の43.7倍速)のレイテンシを実現している。

WERに関しては、Whisperの同サイズモデルとほぼ同等〜やや良い程度。「精度で圧倒」というよりは「同等精度を桁違いの速さで叩き出す」のがMoonshineの本質。

3.3 Kimi-Audio: ベンチマークで「本当に超えた」

一方、Moonshot AIのKimi-Audioは話が違う。こちらはASRタスクで定量的にWhisperを上回っている

ただし、7Bパラメータの汎用オーディオ基盤モデルなので、Whisper(1.55Bパラメータ)と比べるのはフェアな比較とは言えない面もある。「LLMの力で音声認識精度を押し上げた」という表現が正確だ。

Moonshineの特性が理解できたところで、次は具体的なベンチマーク数値を見ていきましょう。


4. ベンチマーク徹底比較 ── 数字は嘘をつかない

4.1 英語ASR(LibriSpeech)

WER(%)── 低いほど高精度

モデル パラメータ test-clean test-other 備考
Kimi-Audio 7B 1.28 2.42 汎用オーディオLLM
Qwen3-ASR-1.7B 1.7B 1.63 3.38 ASR特化、52言語対応
Qwen2-Audio 7B 1.6 3.6 汎用オーディオLLM
Qwen2.5-Omni - 2.37 4.21 マルチモーダル
Whisper Large v3 1.55B 2.78 5.70 ゼロショット多言語対応
NVIDIA Canary Qwen 2.5B 2.5B 1.6 3.1 Open ASR LB 1位
Distil-Whisper 756M ~2.0 ~3.6 Whisper蒸留版

注意:Kimi-AudioとQwen2-Audioは7Bパラメータの巨大モデル。Whisper Large v3(1.55B)との比較は「パラメータ数を考慮した上で」解釈する必要がある。1.7BのQwen3-ASRがWhisperを上回っていることの方が、パラメータ効率の観点では驚異的。

4.2 中国語ASR(AISHELL / WenetSpeech)

WER(%)── 低いほど高精度

モデル AISHELL-1 AISHELL-2 (iOS) WenetSpeech meeting WenetSpeech net
Kimi-Audio 0.60 2.56 6.28 5.37
Qwen2.5-Omni 1.13 2.56 7.71 6.04
Qwen2-Audio 1.52 3.08 8.40 7.64
Qwen3-ASR-1.7B - 2.71 4.97 5.88
Baichuan-Audio 1.93 3.87 13.28 10.13
Step-Audio 2.14 3.89 10.83 9.47

中国語ASRではKimi-Audioの強さが際立つ。AISHELL-1で**WER 0.60%**は驚異的な数値。ただしQwen3-ASR-1.7Bも1.7Bパラメータでありながら、WenetSpeechの会議音声では6.28を上回る4.97を記録している点は見逃せない。

4.3 多言語ASR(Fleurs)

モデル Fleurs 中国語 Fleurs 英語
Kimi-Audio 2.69 4.44
Qwen2.5-Omni 2.92 4.17
Qwen2-Audio 3.63 5.20
Baichuan-Audio 4.15 8.07

4.4 Open ASR Leaderboard上位モデル(英語総合)

HuggingFaceのOpen ASR Leaderboardでは、別の評価軸(7つの英語データセットの平均WER)で比較されている。

順位 モデル 平均WER(%) パラメータ 特徴
1 NVIDIA Canary Qwen 2.5B 5.63 2.5B FastConformer + Qwen3-1.7B LLMデコーダ
2 IBM Granite Speech 3.3 8B 5.85 8B Granite 3.3 Instruct + LoRA
上位 Whisper Large v3 6.43 1.55B 多言語対応の王者
上位 Distil-Whisper ~6.5 756M 6倍速・1%以内の精度劣化

Open ASR LeaderboardはLibriSpeech以外にGigaSpeech、Common Voice、Earnings21/22など多様なデータセットの平均WERを使うため、LibriSpeech単体の結果とは傾向が異なることがある。

ベンチマーク数値の全体像が掴めたところで、次は「結局どのモデルを使えばいいのか」をユースケース別に整理していきます。


5. 実践:ユースケース別・モデル選定ガイド

5.1 環境別の設定例

以下に、代表的なモデルのセットアップ設定を環境別に示す。

開発環境用(config.dev.yaml)

# config.dev.yaml - ローカル開発環境
asr:
  model: "openai/whisper-large-v3"   # 開発時はWhisperが安定
  device: "cuda"
  batch_size: 4
  language: "ja"                      # 日本語指定
  compute_type: "float16"
logging:
  level: DEBUG
output:
  format: "json"
  save_path: "./output/dev/"

本番環境用(config.prod.yaml)

# config.prod.yaml - プロダクション環境
asr:
  model: "Qwen/Qwen3-ASR-1.7B"      # 精度重視ならQwen3-ASR
  device: "cuda"
  batch_size: 16
  beam_size: 5
  compute_type: "bfloat16"
  vllm_enabled: true                  # vLLMバッチ推論
logging:
  level: INFO
output:
  format: "json"
  save_path: "/data/transcripts/"

エッジデバイス用(config.edge.yaml)

# config.edge.yaml - Raspberry Pi / スマートフォン等
asr:
  model: "usefulsensors/moonshine-tiny"  # エッジならMoonshine一択
  device: "cpu"
  batch_size: 1
  format: "ort"                           # ONNX Runtime形式
  streaming: true                         # ストリーミング推論
logging:
  level: WARNING
output:
  format: "text"
  save_path: "/tmp/transcripts/"

5.2 ユースケース別ガイド

ユースケース1: 英語の高精度バッチ処理(会議議事録など)

想定読者: 英語音声の文字起こしサービスを構築する開発者

推奨モデル: NVIDIA Canary Qwen 2.5B or Qwen3-ASR-1.7B

理由: Open ASR Leaderboard総合1位の精度。多様なデータセットでの安定性が高い。

"""
NVIDIA Canary Qwen 2.5Bによる英語バッチ文字起こし
実行方法: python transcribe_canary.py --audio meeting.wav
"""
import nemo.collections.asr as nemo_asr
import argparse

def transcribe_batch(audio_path: str) -> str:
    """高精度バッチ文字起こし"""
    model = nemo_asr.models.ASRModel.from_pretrained(
        "nvidia/canary-qwen-2.5b"
    )
    result = model.transcribe([audio_path])
    return result[0].text

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--audio", required=True)
    args = parser.parse_args()
    print(transcribe_batch(args.audio))

ユースケース2: 多言語対応(52言語)

想定読者: グローバルサービスでの多言語音声認識が必要な開発者

推奨モデル: Qwen3-ASR-1.7B(52言語対応 + 自動言語検出)

理由: 1.7Bという手頃なサイズで52言語+22の中国語方言に対応。言語IDも自動検出。

"""
Qwen3-ASR-1.7Bによる多言語文字起こし(自動言語検出付き)
実行方法: python transcribe_qwen3.py --audio speech.wav
"""
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch

def transcribe_multilingual(audio_path: str) -> str:
    """多言語自動文字起こし(言語自動検出)"""
    model_id = "Qwen/Qwen3-ASR-1.7B"
    processor = AutoProcessor.from_pretrained(model_id)
    model = AutoModelForSpeechSeq2Seq.from_pretrained(
        model_id,
        torch_dtype=torch.bfloat16,
        device_map="auto"
    )
    
    import librosa
    audio, sr = librosa.load(audio_path, sr=16000)
    inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
    inputs = inputs.to(model.device)
    
    generated_ids = model.generate(**inputs)
    transcription = processor.batch_decode(
        generated_ids, skip_special_tokens=True
    )[0]
    return transcription

if __name__ == "__main__":
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument("--audio", required=True)
    args = parser.parse_args()
    print(transcribe_multilingual(args.audio))

ユースケース3: エッジデバイスでのリアルタイム認識

想定読者: Raspberry Piやスマートフォンで音声認識を動かしたい開発者

推奨モデル: Moonshine v2 Tiny(27M パラメータ、50msレイテンシ)

理由: 26MBのモデルサイズでWhisper Tiny同等の精度。ARM CPUでも実用的な速度。

"""
Moonshine v2によるリアルタイムストリーミング認識
実行方法: python realtime_moonshine.py
"""
import moonshine

def realtime_transcribe():
    """マイク入力からリアルタイム文字起こし"""
    model = moonshine.load("moonshine/tiny")
    
    # ストリーミングモードで推論
    stream = moonshine.create_stream(model)
    
    print("マイクに向かって話してください(Ctrl+Cで終了)")
    try:
        for text in stream.transcribe_mic():
            print(f"認識結果: {text}", end="\r")
    except KeyboardInterrupt:
        print("\n終了しました")

if __name__ == "__main__":
    realtime_transcribe()

5.3 よくあるエラーと対処法

エラー 原因 対処法
CUDA out of memory 7Bモデル(Kimi-Audio等)でVRAM不足 torch_dtype=torch.bfloat16を指定 or 4bit量子化(約8GB VRAMで動作可能)
ModuleNotFoundError: No module named 'nemo' NeMo未インストール pip install nemo_toolkit[asr] を実行。CUDA 12.6以上が必要
RuntimeError: Expected input_features ... 音声のサンプルレートが16kHzでない librosa.load(path, sr=16000) でリサンプル
Moonshineで onnxruntime エラー ONNX Runtime未インストールまたはバージョン不一致 pip install onnxruntime (GPU版は onnxruntime-gpu
Qwen3-ASRの推論が異常に遅い transformersの非効率な推論 vLLMベースのバッチ推論に切り替え

5.4 環境診断スクリプト

#!/usr/bin/env python3
"""
ASR環境診断スクリプト
実行方法: python check_asr_env.py
"""
import sys

def check_environment():
    """ASR開発環境をチェックして問題を報告"""
    issues = []
    
    # Python バージョン確認
    if sys.version_info < (3, 9):
        issues.append(f"Python 3.9以上が必要です(現在: {sys.version}")
    
    # PyTorch + CUDA 確認
    try:
        import torch
        print(f"  PyTorch: {torch.__version__}")
        if torch.cuda.is_available():
            print(f"  CUDA: {torch.version.cuda}")
            print(f"  GPU: {torch.cuda.get_device_name(0)}")
            vram = torch.cuda.get_device_properties(0).total_mem / 1e9
            print(f"  VRAM: {vram:.1f} GB")
            if vram < 8:
                issues.append("VRAM 8GB未満: 7Bモデルの実行には量子化が必要です")
        else:
            issues.append("CUDAが利用できません(CPU推論になります)")
    except ImportError:
        issues.append("PyTorchがインストールされていません")
    
    # Transformers 確認
    try:
        import transformers
        print(f"  Transformers: {transformers.__version__}")
    except ImportError:
        issues.append("transformersがインストールされていません")
    
    # librosa 確認
    try:
        import librosa
        print(f"  librosa: {librosa.__version__}")
    except ImportError:
        issues.append("librosaがインストールされていません(pip install librosa)")
    
    # 結果表示
    print()
    if issues:
        print("--- 問題が見つかりました ---")
        for issue in issues:
            print(f"  [!] {issue}")
    else:
        print("--- 環境は正常です ---")

if __name__ == "__main__":
    print("=== ASR環境診断 ===")
    check_environment()

ユースケースを把握できたところで、この先の学習パスを確認しましょう。


6. 2026年のASR勢力図 ── まとめチャート

ここまでの情報を整理して、モデル選定の判断基準をまとめる。

6.1 条件別おすすめモデル

条件 推奨モデル 理由
英語・最高精度・VRAM余裕あり NVIDIA Canary Qwen 2.5B Open ASR LB 1位(WER 5.63%)
英語+中国語・最高精度 Kimi-Audio 7B LibriSpeech 1.28 / AISHELL-1 0.60
多言語(52言語) Qwen3-ASR-1.7B 1.7Bで52言語対応、GPT-4oに匹敵
エッジ/リアルタイム Moonshine v2 27M〜で50msレイテンシ
多言語 + ゼロショット Whisper Large v3 99言語対応、最も広い言語カバレッジ
コスパ重視 Distil-Whisper Whisperの6倍速、WER差1%以内
ノイズ耐性重視 IBM Granite Speech 3.3 8B ノイズ環境でWER劣化わずか7.5%

6.2 「Whisperはもう古い」は本当か?

結論:用途次第。Whisperは「終わった」わけではない。

Whisper Large v3は、2026年現在でも以下の点で他モデルを凌駕している:

  1. 言語カバレッジ: 99言語対応は依然として最大級
  2. エコシステム: faster-whisper、whisper.cpp、Distil-Whisperなど派生が充実
  3. 安定性: 3年以上の実績、ドキュメント・コミュニティが厚い
  4. MLPerf公式ベンチマーク: 2025年9月にMLPerf Inference v5.1の公式ASRベンチマークに採用

ただし、特定の言語・特定の条件では、もはや最良の選択肢ではない。英語単体の精度ではCanary/Qwen3-ASR/Kimi-Audioに抜かれ、エッジデバイスではMoonshineに速度で大差をつけられ、中国語ではKimi-AudioやQwen3-ASRに完全に敗北している。


7. 学習ロードマップ

この記事を読んだ後、次のステップとして以下をおすすめします。

初級者向け(まずはここから)

  1. Whisper Large v3を手元で動かしてみる → OpenAI Whisper GitHub
  2. HuggingFace Open ASR Leaderboardで最新ランキングを確認 → Open ASR Leaderboard

中級者向け(実践に進む)

  1. Qwen3-ASR-1.7Bを自分のデータで試す → Qwen3-ASR GitHub
  2. Moonshine v2をRaspberry Piで動かす → Moonshine GitHub

上級者向け(さらに深く)

  1. Kimi-Audioのテクニカルレポートを読む → arXiv 2504.18425
  2. ASRモデルの量子化(PTQ)に挑戦 → Edge-ASR論文
  3. Open ASR Leaderboardにモデルを投稿する → GitHub

8. まとめ

この記事では、2026年のASRモデル勢力図を以下の観点から整理した:

  1. 「Whisperを超えた」の正体: Moonshine(速度特化)とKimi-Audio(精度特化)の2モデルが存在し、それぞれ異なる意味でWhisperを上回っている
  2. ベンチマーク比較: Kimi-Audioは英語・中国語で最高WERを記録。Qwen3-ASRは1.7Bで52言語対応という驚異的なコスパ。NVIDIA CanaryはOpen ASR Leaderboard総合1位
  3. Whisperの現在地: まだ「終わった」わけではないが、特定の用途では最良ではなくなった

私の所感

ASRの世界は、2022年のWhisper登場で一度「収束」したかに見えた。だが2025〜2026年にかけて、LLMベースのASR(Kimi-Audio、Granite Speech、Canary)と軽量エッジ特化ASR(Moonshine)が登場し、再び「分岐」が始まっている。

個人的に最も注目しているのはQwen3-ASR-1.7B。52言語対応で1.7Bパラメータ、vLLMによるバッチ推論にも対応し、GPT-4o Transcribeに匹敵する精度を叩き出す。これが完全オープンソースで手に入る時代が来たのは感慨深い。

音声認識は「どのモデルが最強か」ではなく、「自分のユースケースに最適なモデルはどれか」で選ぶ時代に入った。この記事がその判断の一助になれば幸いだ。


参考文献


この記事が参考になったら、いいね & ストックをお願いします!

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?