「Whisperを超えた」は本当か？ ─ 2026年版・音声認識モデル最強決定戦の全貌

Posted at 2026-03-15

この記事の対象読者

音声認識（ASR）に興味があるエンジニア
LLMやAI開発の最新動向を追いかけている方
WhisperをプロダクトやOSSプロジェクトで使っている方
「結局どのASRモデルを使えばいいの？」と悩んでいる方

この記事で得られること

2026年時点のASRモデル勢力図: Whisper・Kimi-Audio・Qwen3-ASR・NVIDIA Canary・Moonshineなど主要モデルの位置づけ
WER/CERベンチマーク比較: LibriSpeech・AISHELL・WenetSpeechなど主要データセットでの定量比較
言語別・用途別の「最適解」: 英語・中国語・多言語・エッジデバイスなど条件別の推奨モデル

この記事で扱わないこと

商用APIサービス（Google Cloud Speech-to-Text、Amazon Transcribeなど）の詳細比較
ASRモデルのファインチューニング手法の詳解
日本語ASRに特化したモデル（ReazonSpeechなど）の深掘り

1. 「Whisperを超えたらしい」── そもそも何の話？

最近X（旧Twitter）や技術系コミュニティで「MoonshotのモデルがWhisperを超えた」という噂が流れている。

私も最初に聞いたとき「Moonshot？あの月之暗面（Moonshot AI）が音声認識まで？」と思った。調べてみると、話はそこまで単純ではなかった。

実は2つの異なる「Moon系」モデルが存在する。さらに、Qwen陣営やNVIDIA陣営も猛追しており、2026年のASR界隈は群雄割拠の戦国時代に突入している。

ここまでで「Whisperを超えた」の正体が気になってきたでしょうか。次は、この記事で登場する用語を整理しておきましょう。

2. 前提知識の確認

本題に入る前に、この記事で頻出する用語を確認します。

2.1 ASR（Automatic Speech Recognition）とは

自動音声認識のこと。音声データをテキストに変換する技術。スマートスピーカーの音声入力から議事録の自動作成まで、あらゆる場面で使われている。料理に例えるなら「食材（音声）を料理（テキスト）に変換するシェフ」のような存在。

2.2 WER（Word Error Rate）とは

単語誤り率。ASRモデルの精度を測る最も一般的な指標。値が低いほど高精度。計算式は以下の通り：

WER = (置換 + 挿入 + 削除) / 参照テキストの総単語数 × 100%

例えば WER 5% なら「100単語あたり5単語間違える」ということ。人間のWERは約5〜10%と言われるので、WER 5%以下のモデルは人間並みかそれ以上の認識精度を持つ。

2.3 CER（Character Error Rate）とは

文字誤り率。中国語や日本語など、単語境界が明確でない言語で使われる。WERの「単語」を「文字」に置き換えたもの。

2.4 LibriSpeech / AISHELL / WenetSpeech とは

ASRモデルのベンチマーク用データセット。

データセット	言語	特徴
LibriSpeech	英語	ASR評価のデファクトスタンダード。test-clean（綺麗な音声）とtest-other（ノイジーな音声）がある
AISHELL-1 / 2	中国語（普通話）	中国語ASRの標準ベンチマーク
WenetSpeech	中国語	会議音声（test-meeting）やネット音声（test-net）など実環境に近いデータ
Fleurs	多言語	Googleが公開した102言語対応の多言語ベンチマーク
Common Voice	多言語	Mozillaが運営するクラウドソーシング型音声コーパス

2.5 Open ASR Leaderboard とは

HuggingFaceが運営する、オープンソースASRモデルの公開ランキング。60以上のモデルが英語・多言語・長時間音声の3カテゴリで評価されている。

これらの用語が押さえられたら、いよいよ本題 ── 「Whisperを超えた」の真相に迫っていきましょう。

3. 「Moon系」2つのモデルの正体

3.1 混同注意！ Moonshine ≠ Kimi-Audio

ここが最大の混乱ポイント。 「Moonshotが作ったASRモデルがWhisperを超えた」という噂は、実は2つの別々のモデルが混ざっている可能性がある。

項目	Moonshine	Kimi-Audio
開発元	Useful Sensors（米国スタートアップ）	Moonshot AI / 月之暗面（中国）
発表時期	2024年10月	2025年4月
モデルの性質	ASR特化（軽量・エッジ向け）	汎用オーディオ基盤モデル（ASR + TTS + 音声対話 + 感情認識...）
パラメータ数	27M（Tiny）/ 62M（Base）	7B（Qwen2.5-7Bベース）
対応言語	英語のみ	英語 + 中国語 + 多言語
ライセンス	MIT	MIT（コードはApache 2.0混在）
Whisperとの比較	同等精度で5倍速い（エッジ特化）	WER値で明確に上回る（精度特化）

3.2 Moonshine: Whisperと「同等精度で5倍速い」

Useful Sensors社のMoonshineは、WhisperのアーキテクチャをRoPE（Rotary Position Embedding）で改良し、可変長入力に対応した。

Whisperは30秒の固定長エンコーダを持ち、短い音声にはゼロパディングが必要だった。Moonshineはこれを撤廃し、音声の長さに比例した計算量で処理する。

Moonshine v2（2026年2月発表）では、スライディングウィンドウアテンションを導入し、Tiny版で50ms（Whisper Tinyの5.8倍速）、Medium版で258ms（Whisper Large v3の43.7倍速）のレイテンシを実現している。

WERに関しては、Whisperの同サイズモデルとほぼ同等〜やや良い程度。「精度で圧倒」というよりは「同等精度を桁違いの速さで叩き出す」のがMoonshineの本質。

3.3 Kimi-Audio: ベンチマークで「本当に超えた」

一方、Moonshot AIのKimi-Audioは話が違う。こちらはASRタスクで定量的にWhisperを上回っている。

ただし、7Bパラメータの汎用オーディオ基盤モデルなので、Whisper（1.55Bパラメータ）と比べるのはフェアな比較とは言えない面もある。「LLMの力で音声認識精度を押し上げた」という表現が正確だ。

Moonshineの特性が理解できたところで、次は具体的なベンチマーク数値を見ていきましょう。

4. ベンチマーク徹底比較 ── 数字は嘘をつかない

4.1 英語ASR（LibriSpeech）

WER（%）── 低いほど高精度

モデル	パラメータ	test-clean	test-other	備考
Kimi-Audio	7B	1.28	2.42	汎用オーディオLLM
Qwen3-ASR-1.7B	1.7B	1.63	3.38	ASR特化、52言語対応
Qwen2-Audio	7B	1.6	3.6	汎用オーディオLLM
Qwen2.5-Omni	-	2.37	4.21	マルチモーダル
Whisper Large v3	1.55B	2.78	5.70	ゼロショット多言語対応
NVIDIA Canary Qwen 2.5B	2.5B	1.6	3.1	Open ASR LB 1位
Distil-Whisper	756M	～2.0	～3.6	Whisper蒸留版

注意：Kimi-AudioとQwen2-Audioは7Bパラメータの巨大モデル。Whisper Large v3（1.55B）との比較は「パラメータ数を考慮した上で」解釈する必要がある。1.7BのQwen3-ASRがWhisperを上回っていることの方が、パラメータ効率の観点では驚異的。

4.2 中国語ASR（AISHELL / WenetSpeech）

WER（%）── 低いほど高精度

モデル	AISHELL-1	AISHELL-2 (iOS)	WenetSpeech meeting	WenetSpeech net
Kimi-Audio	0.60	2.56	6.28	5.37
Qwen2.5-Omni	1.13	2.56	7.71	6.04
Qwen2-Audio	1.52	3.08	8.40	7.64
Qwen3-ASR-1.7B	-	2.71	4.97	5.88
Baichuan-Audio	1.93	3.87	13.28	10.13
Step-Audio	2.14	3.89	10.83	9.47

中国語ASRではKimi-Audioの強さが際立つ。AISHELL-1で**WER 0.60%**は驚異的な数値。ただしQwen3-ASR-1.7Bも1.7Bパラメータでありながら、WenetSpeechの会議音声では6.28を上回る4.97を記録している点は見逃せない。

4.3 多言語ASR（Fleurs）

モデル	Fleurs 中国語	Fleurs 英語
Kimi-Audio	2.69	4.44
Qwen2.5-Omni	2.92	4.17
Qwen2-Audio	3.63	5.20
Baichuan-Audio	4.15	8.07

4.4 Open ASR Leaderboard上位モデル（英語総合）

HuggingFaceのOpen ASR Leaderboardでは、別の評価軸（7つの英語データセットの平均WER）で比較されている。

順位	モデル	平均WER(%)	パラメータ	特徴
1	NVIDIA Canary Qwen 2.5B	5.63	2.5B	FastConformer + Qwen3-1.7B LLMデコーダ
2	IBM Granite Speech 3.3 8B	5.85	8B	Granite 3.3 Instruct + LoRA
上位	Whisper Large v3	6.43	1.55B	多言語対応の王者
上位	Distil-Whisper	～6.5	756M	6倍速・1%以内の精度劣化

Open ASR LeaderboardはLibriSpeech以外にGigaSpeech、Common Voice、Earnings21/22など多様なデータセットの平均WERを使うため、LibriSpeech単体の結果とは傾向が異なることがある。

ベンチマーク数値の全体像が掴めたところで、次は「結局どのモデルを使えばいいのか」をユースケース別に整理していきます。

5. 実践：ユースケース別・モデル選定ガイド

5.1 環境別の設定例

以下に、代表的なモデルのセットアップ設定を環境別に示す。

開発環境用（config.dev.yaml）

# config.dev.yaml - ローカル開発環境
asr:
  model: "openai/whisper-large-v3"   # 開発時はWhisperが安定
  device: "cuda"
  batch_size: 4
  language: "ja"                      # 日本語指定
  compute_type: "float16"
logging:
  level: DEBUG
output:
  format: "json"
  save_path: "./output/dev/"

本番環境用（config.prod.yaml）

# config.prod.yaml - プロダクション環境
asr:
  model: "Qwen/Qwen3-ASR-1.7B"      # 精度重視ならQwen3-ASR
  device: "cuda"
  batch_size: 16
  beam_size: 5
  compute_type: "bfloat16"
  vllm_enabled: true                  # vLLMバッチ推論
logging:
  level: INFO
output:
  format: "json"
  save_path: "/data/transcripts/"

エッジデバイス用（config.edge.yaml）

# config.edge.yaml - Raspberry Pi / スマートフォン等
asr:
  model: "usefulsensors/moonshine-tiny"  # エッジならMoonshine一択
  device: "cpu"
  batch_size: 1
  format: "ort"                           # ONNX Runtime形式
  streaming: true                         # ストリーミング推論
logging:
  level: WARNING
output:
  format: "text"
  save_path: "/tmp/transcripts/"

5.2 ユースケース別ガイド

ユースケース1: 英語の高精度バッチ処理（会議議事録など）

想定読者: 英語音声の文字起こしサービスを構築する開発者

推奨モデル: NVIDIA Canary Qwen 2.5B or Qwen3-ASR-1.7B

理由: Open ASR Leaderboard総合1位の精度。多様なデータセットでの安定性が高い。

"""
NVIDIA Canary Qwen 2.5Bによる英語バッチ文字起こし
実行方法: python transcribe_canary.py --audio meeting.wav
"""
import nemo.collections.asr as nemo_asr
import argparse

def transcribe_batch(audio_path: str) -> str:
    """高精度バッチ文字起こし"""
    model = nemo_asr.models.ASRModel.from_pretrained(
        "nvidia/canary-qwen-2.5b"
    )
    result = model.transcribe([audio_path])
    return result[0].text

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--audio", required=True)
    args = parser.parse_args()
    print(transcribe_batch(args.audio))

ユースケース2: 多言語対応（52言語）

想定読者: グローバルサービスでの多言語音声認識が必要な開発者

推奨モデル: Qwen3-ASR-1.7B（52言語対応 + 自動言語検出）

理由: 1.7Bという手頃なサイズで52言語＋22の中国語方言に対応。言語IDも自動検出。

"""
Qwen3-ASR-1.7Bによる多言語文字起こし（自動言語検出付き）
実行方法: python transcribe_qwen3.py --audio speech.wav
"""
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch

def transcribe_multilingual(audio_path: str) -> str:
    """多言語自動文字起こし（言語自動検出）"""
    model_id = "Qwen/Qwen3-ASR-1.7B"
    processor = AutoProcessor.from_pretrained(model_id)
    model = AutoModelForSpeechSeq2Seq.from_pretrained(
        model_id,
        torch_dtype=torch.bfloat16,
        device_map="auto"
    )
    
    import librosa
    audio, sr = librosa.load(audio_path, sr=16000)
    inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
    inputs = inputs.to(model.device)
    
    generated_ids = model.generate(**inputs)
    transcription = processor.batch_decode(
        generated_ids, skip_special_tokens=True
    )[0]
    return transcription

if __name__ == "__main__":
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument("--audio", required=True)
    args = parser.parse_args()
    print(transcribe_multilingual(args.audio))

ユースケース3: エッジデバイスでのリアルタイム認識

想定読者: Raspberry Piやスマートフォンで音声認識を動かしたい開発者

推奨モデル: Moonshine v2 Tiny（27M パラメータ、50msレイテンシ）

理由: 26MBのモデルサイズでWhisper Tiny同等の精度。ARM CPUでも実用的な速度。

"""
Moonshine v2によるリアルタイムストリーミング認識
実行方法: python realtime_moonshine.py
"""
import moonshine

def realtime_transcribe():
    """マイク入力からリアルタイム文字起こし"""
    model = moonshine.load("moonshine/tiny")
    
    # ストリーミングモードで推論
    stream = moonshine.create_stream(model)
    
    print("マイクに向かって話してください（Ctrl+Cで終了）")
    try:
        for text in stream.transcribe_mic():
            print(f"認識結果: {text}", end="\r")
    except KeyboardInterrupt:
        print("\n終了しました")

if __name__ == "__main__":
    realtime_transcribe()

5.3 よくあるエラーと対処法

エラー	原因	対処法
`CUDA out of memory`	7Bモデル（Kimi-Audio等）でVRAM不足	`torch_dtype=torch.bfloat16`を指定 or 4bit量子化（約8GB VRAMで動作可能）
`ModuleNotFoundError: No module named 'nemo'`	NeMo未インストール	`pip install nemo_toolkit[asr]` を実行。CUDA 12.6以上が必要
`RuntimeError: Expected input_features ...`	音声のサンプルレートが16kHzでない	`librosa.load(path, sr=16000)` でリサンプル
Moonshineで `onnxruntime` エラー	ONNX Runtime未インストールまたはバージョン不一致	`pip install onnxruntime` （GPU版は `onnxruntime-gpu`）
Qwen3-ASRの推論が異常に遅い	transformersの非効率な推論	vLLMベースのバッチ推論に切り替え

5.4 環境診断スクリプト

#!/usr/bin/env python3
"""
ASR環境診断スクリプト
実行方法: python check_asr_env.py
"""
import sys

def check_environment():
    """ASR開発環境をチェックして問題を報告"""
    issues = []
    
    # Python バージョン確認
    if sys.version_info < (3, 9):
        issues.append(f"Python 3.9以上が必要です（現在: {sys.version}）")
    
    # PyTorch + CUDA 確認
    try:
        import torch
        print(f"  PyTorch: {torch.__version__}")
        if torch.cuda.is_available():
            print(f"  CUDA: {torch.version.cuda}")
            print(f"  GPU: {torch.cuda.get_device_name(0)}")
            vram = torch.cuda.get_device_properties(0).total_mem / 1e9
            print(f"  VRAM: {vram:.1f} GB")
            if vram < 8:
                issues.append("VRAM 8GB未満: 7Bモデルの実行には量子化が必要です")
        else:
            issues.append("CUDAが利用できません（CPU推論になります）")
    except ImportError:
        issues.append("PyTorchがインストールされていません")
    
    # Transformers 確認
    try:
        import transformers
        print(f"  Transformers: {transformers.__version__}")
    except ImportError:
        issues.append("transformersがインストールされていません")
    
    # librosa 確認
    try:
        import librosa
        print(f"  librosa: {librosa.__version__}")
    except ImportError:
        issues.append("librosaがインストールされていません（pip install librosa）")
    
    # 結果表示
    print()
    if issues:
        print("--- 問題が見つかりました ---")
        for issue in issues:
            print(f"  [!] {issue}")
    else:
        print("--- 環境は正常です ---")

if __name__ == "__main__":
    print("=== ASR環境診断 ===")
    check_environment()

ユースケースを把握できたところで、この先の学習パスを確認しましょう。

6. 2026年のASR勢力図 ── まとめチャート

ここまでの情報を整理して、モデル選定の判断基準をまとめる。

6.1 条件別おすすめモデル

条件	推奨モデル	理由
英語・最高精度・VRAM余裕あり	NVIDIA Canary Qwen 2.5B	Open ASR LB 1位（WER 5.63%）
英語+中国語・最高精度	Kimi-Audio 7B	LibriSpeech 1.28 / AISHELL-1 0.60
多言語（52言語）	Qwen3-ASR-1.7B	1.7Bで52言語対応、GPT-4oに匹敵
エッジ/リアルタイム	Moonshine v2	27M〜で50msレイテンシ
多言語 + ゼロショット	Whisper Large v3	99言語対応、最も広い言語カバレッジ
コスパ重視	Distil-Whisper	Whisperの6倍速、WER差1%以内
ノイズ耐性重視	IBM Granite Speech 3.3 8B	ノイズ環境でWER劣化わずか7.5%

6.2 「Whisperはもう古い」は本当か？

結論：用途次第。Whisperは「終わった」わけではない。

Whisper Large v3は、2026年現在でも以下の点で他モデルを凌駕している：

言語カバレッジ: 99言語対応は依然として最大級
エコシステム: faster-whisper、whisper.cpp、Distil-Whisperなど派生が充実
安定性: 3年以上の実績、ドキュメント・コミュニティが厚い
MLPerf公式ベンチマーク: 2025年9月にMLPerf Inference v5.1の公式ASRベンチマークに採用

ただし、特定の言語・特定の条件では、もはや最良の選択肢ではない。英語単体の精度ではCanary/Qwen3-ASR/Kimi-Audioに抜かれ、エッジデバイスではMoonshineに速度で大差をつけられ、中国語ではKimi-AudioやQwen3-ASRに完全に敗北している。

7. 学習ロードマップ

この記事を読んだ後、次のステップとして以下をおすすめします。

初級者向け（まずはここから）

Whisper Large v3を手元で動かしてみる → OpenAI Whisper GitHub
HuggingFace Open ASR Leaderboardで最新ランキングを確認 → Open ASR Leaderboard

中級者向け（実践に進む）

Qwen3-ASR-1.7Bを自分のデータで試す → Qwen3-ASR GitHub
Moonshine v2をRaspberry Piで動かす → Moonshine GitHub

上級者向け（さらに深く）

Kimi-Audioのテクニカルレポートを読む → arXiv 2504.18425
ASRモデルの量子化（PTQ）に挑戦 → Edge-ASR論文
Open ASR Leaderboardにモデルを投稿する → GitHub

8. まとめ

この記事では、2026年のASRモデル勢力図を以下の観点から整理した：

「Whisperを超えた」の正体: Moonshine（速度特化）とKimi-Audio（精度特化）の2モデルが存在し、それぞれ異なる意味でWhisperを上回っている
ベンチマーク比較: Kimi-Audioは英語・中国語で最高WERを記録。Qwen3-ASRは1.7Bで52言語対応という驚異的なコスパ。NVIDIA CanaryはOpen ASR Leaderboard総合1位
Whisperの現在地: まだ「終わった」わけではないが、特定の用途では最良ではなくなった

私の所感

ASRの世界は、2022年のWhisper登場で一度「収束」したかに見えた。だが2025〜2026年にかけて、LLMベースのASR（Kimi-Audio、Granite Speech、Canary）と軽量エッジ特化ASR（Moonshine）が登場し、再び「分岐」が始まっている。

個人的に最も注目しているのはQwen3-ASR-1.7B。52言語対応で1.7Bパラメータ、vLLMによるバッチ推論にも対応し、GPT-4o Transcribeに匹敵する精度を叩き出す。これが完全オープンソースで手に入る時代が来たのは感慨深い。

音声認識は「どのモデルが最強か」ではなく、「自分のユースケースに最適なモデルはどれか」で選ぶ時代に入った。この記事がその判断の一助になれば幸いだ。

参考文献

Kimi-Audio Technical Report (arXiv:2504.18425) - Moonshot AI
Qwen3-ASR Technical Report (arXiv:2601.21337) - Alibaba Qwen Team
Moonshine: Speech Recognition for Live Transcription (arXiv:2410.15608) - Useful Sensors
Moonshine v2: Ergodic Streaming Encoder ASR (arXiv:2602.12241) - Useful Sensors
Open ASR Leaderboard (arXiv:2510.06961) - HuggingFace et al.
HuggingFace Open ASR Leaderboard
Moonshine GitHub
Kimi-Audio GitHub
Qwen3-ASR GitHub

この記事が参考になったら、いいね & ストックをお願いします！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up