1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

最近の音声認識モデルはどうなんだろう?

1
Posted at

最近の音声認識界隈

最近は ElevenLabs の話をよく聞くので、勢いがあるのかな?と思いながら調査してみました。

2026年1月現在、主要な音声認識モデル(STT)

以下は、2026年1月時点で「音声からテキスト(STT: Speech-to-Text)」で使われている、transcript(文字起こし)性能に優れたLLM/音声モデルの一覧です。

商用・APIで利用可能なトップクラスモデル

順位 モデル名 提供元 主な特徴・強み 多言語対応 リアルタイム 価格帯(目安)
1 OpenAI Whisper (large-v3) OpenAI 業界最高クラスの文字起こし精度、特にノイズ耐性が高い 100言語 ○ (API) $0.006/分
2 Deepgram Nova-3 Deepgram 最新モデル、多言語リアルタイム対応、低レイテンシ 50+言語 $0.0043〜/分 (Nova-2と同価)
3 Google Cloud Chirp 3 Google Cloud 最新版、85+言語対応、Chirp 2から大幅精度向上 85+言語 $0.006〜/分
4 AssemblyAI Universal-1 AssemblyAI 話者分離・要約・感情分析などが標準で付属 100+言語 $0.015/分
5 AWS Transcribe (Standard) Amazon 企業向けセキュリティ・カスタム語彙が強い 100+言語 $0.024/分(標準)
6 ElevenLabs Scribe v1 ElevenLabs 2025年2月新登場、高精度STT、TTSとの統合が便利 99言語 $0.0067/分
7 Deepgram Nova-2 Deepgram 前世代、依然として高精度・コスト効率に優れた選択肢 30+言語 $0.0043/分
8 Gladia v2 Gladia 欧州発、多言語対応、日本語精度も急速に向上中 100+言語 $0.004〜/分
9 Speechmatics Speechmatics イギリス英語・アクセント対応が優秀、実績が豊富 50+言語 要問い合わせ
10 Azure Speech Service (Neural) Microsoft Teams連携・企業向けカスタマイズが豊富 100+言語 $0.0167/分(リアルタイム)、$0.006/分(バッチ)

注記:

  • Deepgram Nova-3は2025年2月にGA(一般提供開始)
  • Google Chirp 3は2025年10月13日にGA、2025年8月以降のプレビュー期間を経ている

オープンソースでローカル実行可能なもの

モデル名 ベースモデル 精度(WER目安 英語) 多言語 推奨GPU 備考
Whisper large-v3 OpenAI ~3-5% 10GB+ 依然として王者、2023年11月リリース
Whisper large-v3-turbo OpenAI ほぼ同等(少し速い) 8GB 速度と精度のバランス最高
FunASR (SenseVoice) Alibaba 3-7%(英語) ◎◎ 8GB 特に中国語・日本語・韓国語・アジア言語最強
SeamlessM4T v2 Meta 4-6% ◎◎ 16GB+ 翻訳+文字起こしが同時に可能
Canary-1B / 0.6B NVIDIA 4-6% 6-8GB 小型で高速、英語特化、2025年に Canary Flash版登場
Distil-Whisper Hugging Face large-v2の90%精度 6GB 4-6倍高速
kotoba-whisper-v2 Hugging Face/rinna ~5-7%(日本語) 8GB 日本語特化、最新オープンソース選択肢

用途別おすすめ

要件 推奨モデル 理由
とにかく精度最優先 OpenAI Whisper large-v3 または Deepgram Nova-3 WER 3-8%の精度、多言語対応
低レイテンシ・リアルタイム会議 Deepgram Nova-3 or Google Chirp 3 <300msの超低遅延対応
コスト最優先(英語中心) Distil-Whisper(自前ホスト) or Gladia $0.004/分以下の低価格
日本語・中国語・アジア言語 FunASR SenseVoice(自前)or Gladia(API) アジア言語で圧倒的精度
多言語100以上+企業利用 AssemblyAI or Google Chirp 3 信頼性、スケーラビリティ、カスタマイズ性
日本国内での導入・サポート ClovaNote (Naver Japan) ローカルサポート、日本語最適化

まとめ

OpenAI Whisper が出てから結構経ちますが、いまだに強いみたいですね。ただ、他の選択肢も増えてきているので、色々試してみたい感じはします(うちのGPUはメモリが・・・)近いうちに runpod とか使って色々検証してみたいと思います。

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?