最近の音声認識界隈
最近は ElevenLabs の話をよく聞くので、勢いがあるのかな?と思いながら調査してみました。
2026年1月現在、主要な音声認識モデル(STT)
以下は、2026年1月時点で「音声からテキスト(STT: Speech-to-Text)」で使われている、transcript(文字起こし)性能に優れたLLM/音声モデルの一覧です。
商用・APIで利用可能なトップクラスモデル
| 順位 | モデル名 | 提供元 | 主な特徴・強み | 多言語対応 | リアルタイム | 価格帯(目安) |
|---|---|---|---|---|---|---|
| 1 | OpenAI Whisper (large-v3) | OpenAI | 業界最高クラスの文字起こし精度、特にノイズ耐性が高い | 100言語 | ○ (API) | $0.006/分 |
| 2 | Deepgram Nova-3 | Deepgram | 最新モデル、多言語リアルタイム対応、低レイテンシ | 50+言語 | ◎ | $0.0043〜/分 (Nova-2と同価) |
| 3 | Google Cloud Chirp 3 | Google Cloud | 最新版、85+言語対応、Chirp 2から大幅精度向上 | 85+言語 | ◎ | $0.006〜/分 |
| 4 | AssemblyAI Universal-1 | AssemblyAI | 話者分離・要約・感情分析などが標準で付属 | 100+言語 | ○ | $0.015/分 |
| 5 | AWS Transcribe (Standard) | Amazon | 企業向けセキュリティ・カスタム語彙が強い | 100+言語 | ○ | $0.024/分(標準) |
| 6 | ElevenLabs Scribe v1 | ElevenLabs | 2025年2月新登場、高精度STT、TTSとの統合が便利 | 99言語 | ○ | $0.0067/分 |
| 7 | Deepgram Nova-2 | Deepgram | 前世代、依然として高精度・コスト効率に優れた選択肢 | 30+言語 | ◎ | $0.0043/分 |
| 8 | Gladia v2 | Gladia | 欧州発、多言語対応、日本語精度も急速に向上中 | 100+言語 | ◎ | $0.004〜/分 |
| 9 | Speechmatics | Speechmatics | イギリス英語・アクセント対応が優秀、実績が豊富 | 50+言語 | ○ | 要問い合わせ |
| 10 | Azure Speech Service (Neural) | Microsoft | Teams連携・企業向けカスタマイズが豊富 | 100+言語 | ◎ | $0.0167/分(リアルタイム)、$0.006/分(バッチ) |
注記:
- Deepgram Nova-3は2025年2月にGA(一般提供開始)
- Google Chirp 3は2025年10月13日にGA、2025年8月以降のプレビュー期間を経ている
オープンソースでローカル実行可能なもの
| モデル名 | ベースモデル | 精度(WER目安 英語) | 多言語 | 推奨GPU | 備考 |
|---|---|---|---|---|---|
| Whisper large-v3 | OpenAI | ~3-5% | ◎ | 10GB+ | 依然として王者、2023年11月リリース |
| Whisper large-v3-turbo | OpenAI | ほぼ同等(少し速い) | ◎ | 8GB | 速度と精度のバランス最高 |
| FunASR (SenseVoice) | Alibaba | 3-7%(英語) | ◎◎ | 8GB | 特に中国語・日本語・韓国語・アジア言語最強 |
| SeamlessM4T v2 | Meta | 4-6% | ◎◎ | 16GB+ | 翻訳+文字起こしが同時に可能 |
| Canary-1B / 0.6B | NVIDIA | 4-6% | △ | 6-8GB | 小型で高速、英語特化、2025年に Canary Flash版登場 |
| Distil-Whisper | Hugging Face | large-v2の90%精度 | ◎ | 6GB | 4-6倍高速 |
| kotoba-whisper-v2 | Hugging Face/rinna | ~5-7%(日本語) | ○ | 8GB | 日本語特化、最新オープンソース選択肢 |
用途別おすすめ
| 要件 | 推奨モデル | 理由 |
|---|---|---|
| とにかく精度最優先 | OpenAI Whisper large-v3 または Deepgram Nova-3 | WER 3-8%の精度、多言語対応 |
| 低レイテンシ・リアルタイム会議 | Deepgram Nova-3 or Google Chirp 3 | <300msの超低遅延対応 |
| コスト最優先(英語中心) | Distil-Whisper(自前ホスト) or Gladia | $0.004/分以下の低価格 |
| 日本語・中国語・アジア言語 | FunASR SenseVoice(自前)or Gladia(API) | アジア言語で圧倒的精度 |
| 多言語100以上+企業利用 | AssemblyAI or Google Chirp 3 | 信頼性、スケーラビリティ、カスタマイズ性 |
| 日本国内での導入・サポート | ClovaNote (Naver Japan) | ローカルサポート、日本語最適化 |
まとめ
OpenAI Whisper が出てから結構経ちますが、いまだに強いみたいですね。ただ、他の選択肢も増えてきているので、色々試してみたい感じはします(うちのGPUはメモリが・・・)近いうちに runpod とか使って色々検証してみたいと思います。