最近の音声認識モデルはどうなんだろう？

Posted at 2026-01-08

最近の音声認識界隈

最近は ElevenLabs の話をよく聞くので、勢いがあるのかな？と思いながら調査してみました。

以下は、2026年1月時点で「音声からテキスト（STT: Speech-to-Text）」で使われている、transcript（文字起こし）性能に優れたLLM/音声モデルの一覧です。

商用・APIで利用可能なトップクラスモデル

順位	モデル名	提供元	主な特徴・強み	多言語対応	リアルタイム	価格帯（目安）
1	OpenAI Whisper (large-v3)	OpenAI	業界最高クラスの文字起こし精度、特にノイズ耐性が高い	100言語	○ (API)	$0.006/分
2	Deepgram Nova-3	Deepgram	最新モデル、多言語リアルタイム対応、低レイテンシ	50+言語	◎	$0.0043〜/分 (Nova-2と同価)
3	Google Cloud Chirp 3	Google Cloud	最新版、85+言語対応、Chirp 2から大幅精度向上	85+言語	◎	$0.006〜/分
4	AssemblyAI Universal-1	AssemblyAI	話者分離・要約・感情分析などが標準で付属	100+言語	○	$0.015/分
5	AWS Transcribe (Standard)	Amazon	企業向けセキュリティ・カスタム語彙が強い	100+言語	○	$0.024/分（標準）
6	ElevenLabs Scribe v1	ElevenLabs	2025年2月新登場、高精度STT、TTSとの統合が便利	99言語	○	$0.0067/分
7	Deepgram Nova-2	Deepgram	前世代、依然として高精度・コスト効率に優れた選択肢	30+言語	◎	$0.0043/分
8	Gladia v2	Gladia	欧州発、多言語対応、日本語精度も急速に向上中	100+言語	◎	$0.004〜/分
9	Speechmatics	Speechmatics	イギリス英語・アクセント対応が優秀、実績が豊富	50+言語	○	要問い合わせ
10	Azure Speech Service (Neural)	Microsoft	Teams連携・企業向けカスタマイズが豊富	100+言語	◎	$0.0167/分（リアルタイム）、$0.006/分（バッチ）

注記：

モデル名	ベースモデル	精度（WER目安英語）	多言語	推奨GPU	備考
Whisper large-v3	OpenAI	~3-5%	◎	10GB+	依然として王者、2023年11月リリース
Whisper large-v3-turbo	OpenAI	ほぼ同等（少し速い）	◎	8GB	速度と精度のバランス最高
FunASR (SenseVoice)	Alibaba	3-7%（英語）	◎◎	8GB	特に中国語・日本語・韓国語・アジア言語最強
SeamlessM4T v2	Meta	4-6%	◎◎	16GB+	翻訳＋文字起こしが同時に可能
Canary-1B / 0.6B	NVIDIA	4-6%	△	6-8GB	小型で高速、英語特化、2025年に Canary Flash版登場
Distil-Whisper	Hugging Face	large-v2の90%精度	◎	6GB	4-6倍高速
kotoba-whisper-v2	Hugging Face/rinna	~5-7%（日本語）	○	8GB	日本語特化、最新オープンソース選択肢

要件	推奨モデル	理由
とにかく精度最優先	OpenAI Whisper large-v3 または Deepgram Nova-3	WER 3-8%の精度、多言語対応
低レイテンシ・リアルタイム会議	Deepgram Nova-3 or Google Chirp 3	<300msの超低遅延対応
コスト最優先（英語中心）	Distil-Whisper（自前ホスト） or Gladia	$0.004/分以下の低価格
日本語・中国語・アジア言語	FunASR SenseVoice（自前）or Gladia（API）	アジア言語で圧倒的精度
多言語100以上＋企業利用	AssemblyAI or Google Chirp 3	信頼性、スケーラビリティ、カスタマイズ性
日本国内での導入・サポート	ClovaNote (Naver Japan)	ローカルサポート、日本語最適化

OpenAI Whisper が出てから結構経ちますが、いまだに強いみたいですね。ただ、他の選択肢も増えてきているので、色々試してみたい感じはします（うちのGPUはメモリが・・・）近いうちに runpod とか使って色々検証してみたいと思います。