この記事の対象読者
- 音声認識(ASR)に興味があるエンジニア
- LLMやAI開発の最新動向を追いかけている方
- WhisperをプロダクトやOSSプロジェクトで使っている方
- 「結局どのASRモデルを使えばいいの?」と悩んでいる方
この記事で得られること
- 2026年時点のASRモデル勢力図: Whisper・Kimi-Audio・Qwen3-ASR・NVIDIA Canary・Moonshineなど主要モデルの位置づけ
- WER/CERベンチマーク比較: LibriSpeech・AISHELL・WenetSpeechなど主要データセットでの定量比較
- 言語別・用途別の「最適解」: 英語・中国語・多言語・エッジデバイスなど条件別の推奨モデル
この記事で扱わないこと
- 商用APIサービス(Google Cloud Speech-to-Text、Amazon Transcribeなど)の詳細比較
- ASRモデルのファインチューニング手法の詳解
- 日本語ASRに特化したモデル(ReazonSpeechなど)の深掘り
1. 「Whisperを超えたらしい」── そもそも何の話?
最近X(旧Twitter)や技術系コミュニティで「MoonshotのモデルがWhisperを超えた」という噂が流れている。
私も最初に聞いたとき「Moonshot? あの月之暗面(Moonshot AI)が音声認識まで?」と思った。調べてみると、話はそこまで単純ではなかった。
実は2つの異なる「Moon系」モデルが存在する。さらに、Qwen陣営やNVIDIA陣営も猛追しており、2026年のASR界隈は群雄割拠の戦国時代に突入している。
ここまでで「Whisperを超えた」の正体が気になってきたでしょうか。次は、この記事で登場する用語を整理しておきましょう。
2. 前提知識の確認
本題に入る前に、この記事で頻出する用語を確認します。
2.1 ASR(Automatic Speech Recognition)とは
自動音声認識のこと。音声データをテキストに変換する技術。スマートスピーカーの音声入力から議事録の自動作成まで、あらゆる場面で使われている。料理に例えるなら「食材(音声)を料理(テキスト)に変換するシェフ」のような存在。
2.2 WER(Word Error Rate)とは
単語誤り率。ASRモデルの精度を測る最も一般的な指標。値が低いほど高精度。計算式は以下の通り:
WER = (置換 + 挿入 + 削除) / 参照テキストの総単語数 × 100%
例えば WER 5% なら「100単語あたり5単語間違える」ということ。人間のWERは約5〜10%と言われるので、WER 5%以下のモデルは人間並みかそれ以上の認識精度を持つ。
2.3 CER(Character Error Rate)とは
文字誤り率。中国語や日本語など、単語境界が明確でない言語で使われる。WERの「単語」を「文字」に置き換えたもの。
2.4 LibriSpeech / AISHELL / WenetSpeech とは
ASRモデルのベンチマーク用データセット。
| データセット | 言語 | 特徴 |
|---|---|---|
| LibriSpeech | 英語 | ASR評価のデファクトスタンダード。test-clean(綺麗な音声)とtest-other(ノイジーな音声)がある |
| AISHELL-1 / 2 | 中国語(普通話) | 中国語ASRの標準ベンチマーク |
| WenetSpeech | 中国語 | 会議音声(test-meeting)やネット音声(test-net)など実環境に近いデータ |
| Fleurs | 多言語 | Googleが公開した102言語対応の多言語ベンチマーク |
| Common Voice | 多言語 | Mozillaが運営するクラウドソーシング型音声コーパス |
2.5 Open ASR Leaderboard とは
HuggingFaceが運営する、オープンソースASRモデルの公開ランキング。60以上のモデルが英語・多言語・長時間音声の3カテゴリで評価されている。
これらの用語が押さえられたら、いよいよ本題 ── 「Whisperを超えた」の真相に迫っていきましょう。
3. 「Moon系」2つのモデルの正体
3.1 混同注意! Moonshine ≠ Kimi-Audio
ここが最大の混乱ポイント。 「Moonshotが作ったASRモデルがWhisperを超えた」という噂は、実は2つの別々のモデルが混ざっている可能性がある。
| 項目 | Moonshine | Kimi-Audio |
|---|---|---|
| 開発元 | Useful Sensors(米国スタートアップ) | Moonshot AI / 月之暗面(中国) |
| 発表時期 | 2024年10月 | 2025年4月 |
| モデルの性質 | ASR特化(軽量・エッジ向け) | 汎用オーディオ基盤モデル(ASR + TTS + 音声対話 + 感情認識...) |
| パラメータ数 | 27M(Tiny)/ 62M(Base) | 7B(Qwen2.5-7Bベース) |
| 対応言語 | 英語のみ | 英語 + 中国語 + 多言語 |
| ライセンス | MIT | MIT(コードはApache 2.0混在) |
| Whisperとの比較 | 同等精度で5倍速い(エッジ特化) | WER値で明確に上回る(精度特化) |
3.2 Moonshine: Whisperと「同等精度で5倍速い」
Useful Sensors社のMoonshineは、WhisperのアーキテクチャをRoPE(Rotary Position Embedding)で改良し、可変長入力に対応した。
Whisperは30秒の固定長エンコーダを持ち、短い音声にはゼロパディングが必要だった。Moonshineはこれを撤廃し、音声の長さに比例した計算量で処理する。
Moonshine v2(2026年2月発表)では、スライディングウィンドウアテンションを導入し、Tiny版で50ms(Whisper Tinyの5.8倍速)、Medium版で258ms(Whisper Large v3の43.7倍速)のレイテンシを実現している。
WERに関しては、Whisperの同サイズモデルとほぼ同等〜やや良い程度。「精度で圧倒」というよりは「同等精度を桁違いの速さで叩き出す」のがMoonshineの本質。
3.3 Kimi-Audio: ベンチマークで「本当に超えた」
一方、Moonshot AIのKimi-Audioは話が違う。こちらはASRタスクで定量的にWhisperを上回っている。
ただし、7Bパラメータの汎用オーディオ基盤モデルなので、Whisper(1.55Bパラメータ)と比べるのはフェアな比較とは言えない面もある。「LLMの力で音声認識精度を押し上げた」という表現が正確だ。
Moonshineの特性が理解できたところで、次は具体的なベンチマーク数値を見ていきましょう。
4. ベンチマーク徹底比較 ── 数字は嘘をつかない
4.1 英語ASR(LibriSpeech)
WER(%)── 低いほど高精度
| モデル | パラメータ | test-clean | test-other | 備考 |
|---|---|---|---|---|
| Kimi-Audio | 7B | 1.28 | 2.42 | 汎用オーディオLLM |
| Qwen3-ASR-1.7B | 1.7B | 1.63 | 3.38 | ASR特化、52言語対応 |
| Qwen2-Audio | 7B | 1.6 | 3.6 | 汎用オーディオLLM |
| Qwen2.5-Omni | - | 2.37 | 4.21 | マルチモーダル |
| Whisper Large v3 | 1.55B | 2.78 | 5.70 | ゼロショット多言語対応 |
| NVIDIA Canary Qwen 2.5B | 2.5B | 1.6 | 3.1 | Open ASR LB 1位 |
| Distil-Whisper | 756M | ~2.0 | ~3.6 | Whisper蒸留版 |
注意:Kimi-AudioとQwen2-Audioは7Bパラメータの巨大モデル。Whisper Large v3(1.55B)との比較は「パラメータ数を考慮した上で」解釈する必要がある。1.7BのQwen3-ASRがWhisperを上回っていることの方が、パラメータ効率の観点では驚異的。
4.2 中国語ASR(AISHELL / WenetSpeech)
WER(%)── 低いほど高精度
| モデル | AISHELL-1 | AISHELL-2 (iOS) | WenetSpeech meeting | WenetSpeech net |
|---|---|---|---|---|
| Kimi-Audio | 0.60 | 2.56 | 6.28 | 5.37 |
| Qwen2.5-Omni | 1.13 | 2.56 | 7.71 | 6.04 |
| Qwen2-Audio | 1.52 | 3.08 | 8.40 | 7.64 |
| Qwen3-ASR-1.7B | - | 2.71 | 4.97 | 5.88 |
| Baichuan-Audio | 1.93 | 3.87 | 13.28 | 10.13 |
| Step-Audio | 2.14 | 3.89 | 10.83 | 9.47 |
中国語ASRではKimi-Audioの強さが際立つ。AISHELL-1で**WER 0.60%**は驚異的な数値。ただしQwen3-ASR-1.7Bも1.7Bパラメータでありながら、WenetSpeechの会議音声では6.28を上回る4.97を記録している点は見逃せない。
4.3 多言語ASR(Fleurs)
| モデル | Fleurs 中国語 | Fleurs 英語 |
|---|---|---|
| Kimi-Audio | 2.69 | 4.44 |
| Qwen2.5-Omni | 2.92 | 4.17 |
| Qwen2-Audio | 3.63 | 5.20 |
| Baichuan-Audio | 4.15 | 8.07 |
4.4 Open ASR Leaderboard上位モデル(英語総合)
HuggingFaceのOpen ASR Leaderboardでは、別の評価軸(7つの英語データセットの平均WER)で比較されている。
| 順位 | モデル | 平均WER(%) | パラメータ | 特徴 |
|---|---|---|---|---|
| 1 | NVIDIA Canary Qwen 2.5B | 5.63 | 2.5B | FastConformer + Qwen3-1.7B LLMデコーダ |
| 2 | IBM Granite Speech 3.3 8B | 5.85 | 8B | Granite 3.3 Instruct + LoRA |
| 上位 | Whisper Large v3 | 6.43 | 1.55B | 多言語対応の王者 |
| 上位 | Distil-Whisper | ~6.5 | 756M | 6倍速・1%以内の精度劣化 |
Open ASR LeaderboardはLibriSpeech以外にGigaSpeech、Common Voice、Earnings21/22など多様なデータセットの平均WERを使うため、LibriSpeech単体の結果とは傾向が異なることがある。
ベンチマーク数値の全体像が掴めたところで、次は「結局どのモデルを使えばいいのか」をユースケース別に整理していきます。
5. 実践:ユースケース別・モデル選定ガイド
5.1 環境別の設定例
以下に、代表的なモデルのセットアップ設定を環境別に示す。
開発環境用(config.dev.yaml)
# config.dev.yaml - ローカル開発環境
asr:
model: "openai/whisper-large-v3" # 開発時はWhisperが安定
device: "cuda"
batch_size: 4
language: "ja" # 日本語指定
compute_type: "float16"
logging:
level: DEBUG
output:
format: "json"
save_path: "./output/dev/"
本番環境用(config.prod.yaml)
# config.prod.yaml - プロダクション環境
asr:
model: "Qwen/Qwen3-ASR-1.7B" # 精度重視ならQwen3-ASR
device: "cuda"
batch_size: 16
beam_size: 5
compute_type: "bfloat16"
vllm_enabled: true # vLLMバッチ推論
logging:
level: INFO
output:
format: "json"
save_path: "/data/transcripts/"
エッジデバイス用(config.edge.yaml)
# config.edge.yaml - Raspberry Pi / スマートフォン等
asr:
model: "usefulsensors/moonshine-tiny" # エッジならMoonshine一択
device: "cpu"
batch_size: 1
format: "ort" # ONNX Runtime形式
streaming: true # ストリーミング推論
logging:
level: WARNING
output:
format: "text"
save_path: "/tmp/transcripts/"
5.2 ユースケース別ガイド
ユースケース1: 英語の高精度バッチ処理(会議議事録など)
想定読者: 英語音声の文字起こしサービスを構築する開発者
推奨モデル: NVIDIA Canary Qwen 2.5B or Qwen3-ASR-1.7B
理由: Open ASR Leaderboard総合1位の精度。多様なデータセットでの安定性が高い。
"""
NVIDIA Canary Qwen 2.5Bによる英語バッチ文字起こし
実行方法: python transcribe_canary.py --audio meeting.wav
"""
import nemo.collections.asr as nemo_asr
import argparse
def transcribe_batch(audio_path: str) -> str:
"""高精度バッチ文字起こし"""
model = nemo_asr.models.ASRModel.from_pretrained(
"nvidia/canary-qwen-2.5b"
)
result = model.transcribe([audio_path])
return result[0].text
if __name__ == "__main__":
parser = argparse.ArgumentParser()
parser.add_argument("--audio", required=True)
args = parser.parse_args()
print(transcribe_batch(args.audio))
ユースケース2: 多言語対応(52言語)
想定読者: グローバルサービスでの多言語音声認識が必要な開発者
推奨モデル: Qwen3-ASR-1.7B(52言語対応 + 自動言語検出)
理由: 1.7Bという手頃なサイズで52言語+22の中国語方言に対応。言語IDも自動検出。
"""
Qwen3-ASR-1.7Bによる多言語文字起こし(自動言語検出付き)
実行方法: python transcribe_qwen3.py --audio speech.wav
"""
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor
import torch
def transcribe_multilingual(audio_path: str) -> str:
"""多言語自動文字起こし(言語自動検出)"""
model_id = "Qwen/Qwen3-ASR-1.7B"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForSpeechSeq2Seq.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
import librosa
audio, sr = librosa.load(audio_path, sr=16000)
inputs = processor(audio, sampling_rate=16000, return_tensors="pt")
inputs = inputs.to(model.device)
generated_ids = model.generate(**inputs)
transcription = processor.batch_decode(
generated_ids, skip_special_tokens=True
)[0]
return transcription
if __name__ == "__main__":
import argparse
parser = argparse.ArgumentParser()
parser.add_argument("--audio", required=True)
args = parser.parse_args()
print(transcribe_multilingual(args.audio))
ユースケース3: エッジデバイスでのリアルタイム認識
想定読者: Raspberry Piやスマートフォンで音声認識を動かしたい開発者
推奨モデル: Moonshine v2 Tiny(27M パラメータ、50msレイテンシ)
理由: 26MBのモデルサイズでWhisper Tiny同等の精度。ARM CPUでも実用的な速度。
"""
Moonshine v2によるリアルタイムストリーミング認識
実行方法: python realtime_moonshine.py
"""
import moonshine
def realtime_transcribe():
"""マイク入力からリアルタイム文字起こし"""
model = moonshine.load("moonshine/tiny")
# ストリーミングモードで推論
stream = moonshine.create_stream(model)
print("マイクに向かって話してください(Ctrl+Cで終了)")
try:
for text in stream.transcribe_mic():
print(f"認識結果: {text}", end="\r")
except KeyboardInterrupt:
print("\n終了しました")
if __name__ == "__main__":
realtime_transcribe()
5.3 よくあるエラーと対処法
| エラー | 原因 | 対処法 |
|---|---|---|
CUDA out of memory |
7Bモデル(Kimi-Audio等)でVRAM不足 |
torch_dtype=torch.bfloat16を指定 or 4bit量子化(約8GB VRAMで動作可能) |
ModuleNotFoundError: No module named 'nemo' |
NeMo未インストール |
pip install nemo_toolkit[asr] を実行。CUDA 12.6以上が必要 |
RuntimeError: Expected input_features ... |
音声のサンプルレートが16kHzでない |
librosa.load(path, sr=16000) でリサンプル |
Moonshineで onnxruntime エラー |
ONNX Runtime未インストールまたはバージョン不一致 |
pip install onnxruntime (GPU版は onnxruntime-gpu) |
| Qwen3-ASRの推論が異常に遅い | transformersの非効率な推論 | vLLMベースのバッチ推論に切り替え |
5.4 環境診断スクリプト
#!/usr/bin/env python3
"""
ASR環境診断スクリプト
実行方法: python check_asr_env.py
"""
import sys
def check_environment():
"""ASR開発環境をチェックして問題を報告"""
issues = []
# Python バージョン確認
if sys.version_info < (3, 9):
issues.append(f"Python 3.9以上が必要です(現在: {sys.version})")
# PyTorch + CUDA 確認
try:
import torch
print(f" PyTorch: {torch.__version__}")
if torch.cuda.is_available():
print(f" CUDA: {torch.version.cuda}")
print(f" GPU: {torch.cuda.get_device_name(0)}")
vram = torch.cuda.get_device_properties(0).total_mem / 1e9
print(f" VRAM: {vram:.1f} GB")
if vram < 8:
issues.append("VRAM 8GB未満: 7Bモデルの実行には量子化が必要です")
else:
issues.append("CUDAが利用できません(CPU推論になります)")
except ImportError:
issues.append("PyTorchがインストールされていません")
# Transformers 確認
try:
import transformers
print(f" Transformers: {transformers.__version__}")
except ImportError:
issues.append("transformersがインストールされていません")
# librosa 確認
try:
import librosa
print(f" librosa: {librosa.__version__}")
except ImportError:
issues.append("librosaがインストールされていません(pip install librosa)")
# 結果表示
print()
if issues:
print("--- 問題が見つかりました ---")
for issue in issues:
print(f" [!] {issue}")
else:
print("--- 環境は正常です ---")
if __name__ == "__main__":
print("=== ASR環境診断 ===")
check_environment()
ユースケースを把握できたところで、この先の学習パスを確認しましょう。
6. 2026年のASR勢力図 ── まとめチャート
ここまでの情報を整理して、モデル選定の判断基準をまとめる。
6.1 条件別おすすめモデル
| 条件 | 推奨モデル | 理由 |
|---|---|---|
| 英語・最高精度・VRAM余裕あり | NVIDIA Canary Qwen 2.5B | Open ASR LB 1位(WER 5.63%) |
| 英語+中国語・最高精度 | Kimi-Audio 7B | LibriSpeech 1.28 / AISHELL-1 0.60 |
| 多言語(52言語) | Qwen3-ASR-1.7B | 1.7Bで52言語対応、GPT-4oに匹敵 |
| エッジ/リアルタイム | Moonshine v2 | 27M〜で50msレイテンシ |
| 多言語 + ゼロショット | Whisper Large v3 | 99言語対応、最も広い言語カバレッジ |
| コスパ重視 | Distil-Whisper | Whisperの6倍速、WER差1%以内 |
| ノイズ耐性重視 | IBM Granite Speech 3.3 8B | ノイズ環境でWER劣化わずか7.5% |
6.2 「Whisperはもう古い」は本当か?
結論:用途次第。Whisperは「終わった」わけではない。
Whisper Large v3は、2026年現在でも以下の点で他モデルを凌駕している:
- 言語カバレッジ: 99言語対応は依然として最大級
- エコシステム: faster-whisper、whisper.cpp、Distil-Whisperなど派生が充実
- 安定性: 3年以上の実績、ドキュメント・コミュニティが厚い
- MLPerf公式ベンチマーク: 2025年9月にMLPerf Inference v5.1の公式ASRベンチマークに採用
ただし、特定の言語・特定の条件では、もはや最良の選択肢ではない。英語単体の精度ではCanary/Qwen3-ASR/Kimi-Audioに抜かれ、エッジデバイスではMoonshineに速度で大差をつけられ、中国語ではKimi-AudioやQwen3-ASRに完全に敗北している。
7. 学習ロードマップ
この記事を読んだ後、次のステップとして以下をおすすめします。
初級者向け(まずはここから)
- Whisper Large v3を手元で動かしてみる → OpenAI Whisper GitHub
- HuggingFace Open ASR Leaderboardで最新ランキングを確認 → Open ASR Leaderboard
中級者向け(実践に進む)
- Qwen3-ASR-1.7Bを自分のデータで試す → Qwen3-ASR GitHub
- Moonshine v2をRaspberry Piで動かす → Moonshine GitHub
上級者向け(さらに深く)
- Kimi-Audioのテクニカルレポートを読む → arXiv 2504.18425
- ASRモデルの量子化(PTQ)に挑戦 → Edge-ASR論文
- Open ASR Leaderboardにモデルを投稿する → GitHub
8. まとめ
この記事では、2026年のASRモデル勢力図を以下の観点から整理した:
- 「Whisperを超えた」の正体: Moonshine(速度特化)とKimi-Audio(精度特化)の2モデルが存在し、それぞれ異なる意味でWhisperを上回っている
- ベンチマーク比較: Kimi-Audioは英語・中国語で最高WERを記録。Qwen3-ASRは1.7Bで52言語対応という驚異的なコスパ。NVIDIA CanaryはOpen ASR Leaderboard総合1位
- Whisperの現在地: まだ「終わった」わけではないが、特定の用途では最良ではなくなった
私の所感
ASRの世界は、2022年のWhisper登場で一度「収束」したかに見えた。だが2025〜2026年にかけて、LLMベースのASR(Kimi-Audio、Granite Speech、Canary)と軽量エッジ特化ASR(Moonshine)が登場し、再び「分岐」が始まっている。
個人的に最も注目しているのはQwen3-ASR-1.7B。52言語対応で1.7Bパラメータ、vLLMによるバッチ推論にも対応し、GPT-4o Transcribeに匹敵する精度を叩き出す。これが完全オープンソースで手に入る時代が来たのは感慨深い。
音声認識は「どのモデルが最強か」ではなく、「自分のユースケースに最適なモデルはどれか」で選ぶ時代に入った。この記事がその判断の一助になれば幸いだ。
参考文献
- Kimi-Audio Technical Report (arXiv:2504.18425) - Moonshot AI
- Qwen3-ASR Technical Report (arXiv:2601.21337) - Alibaba Qwen Team
- Moonshine: Speech Recognition for Live Transcription (arXiv:2410.15608) - Useful Sensors
- Moonshine v2: Ergodic Streaming Encoder ASR (arXiv:2602.12241) - Useful Sensors
- Open ASR Leaderboard (arXiv:2510.06961) - HuggingFace et al.
- HuggingFace Open ASR Leaderboard
- Moonshine GitHub
- Kimi-Audio GitHub
- Qwen3-ASR GitHub
この記事が参考になったら、いいね & ストックをお願いします!