1. はじめに
IBMの Watson Speech to Text(STT) は 2015年に提供が開始され、長年にわたり音声認識サービスとして利用されてきました。日本語の認識モデルとしては ja-JP_BroadbandModel(以降、前世代モデル) などが提供され、その後何度か更新を経て、2020年ごろから次世代モデルが登場。そして、生成AI技術の進展を背景に、2025年には大型音声モデル(ja-JP) が利用可能となりました(リリースノート)。
本記事は、長年利用されてきた前世代モデル(ja-JP_BroadbandModel)と、最新のLargeモデル(ja-JP)を対比させ、認識精度と処理速度の両面でどの程度進化したかを技術的に検証します。本検証結果は、STTソリューションの選定や性能評価の参考となる、定量的結果と具体的な改善例を示すとともに、技術的な考察も加えるものです。
補足(重要): 本検証は限定的なサンプルでの比較です。WERなどの指標はモデル間の比較目的で用いており、他ソリューションとの直接比較や一般化には注意が必要です。また、Watson STT の モデルカスタマイズ機能 は今回の検証対象外です。
2. 検証データの準備
2.1 NHKニュース音声
公開されているニュース音声の一部(短め、長めの音声)を用いて、両モデルの初期動作と処理速度の傾向を試験的に確認しました。検証結果の詳細は 4.1 にて示します。なお、WERはいずれも10%を超えない良好な認識結果でした。
2.2 検証用オリジナル音声
より実践的・挑戦的な条件での評価を目指し、検証用の原稿を用意して自分の声で録音した5件の音声を作成しました。特徴は以下:
-
ビジネス系の文脈(経理、マーケティング、会議の議事録想定など)を想定
-
意図的にやや不明瞭(ぼそぼそ)に発話した箇所を含む
-
原稿に「生成AI」など比較的新しい用語を含める
オリジナル音声原稿
- レコーディング1
現在、企業は社員のリスキリングを促進しており、特に生成AIやデータ分析のスキル習得が急務となっています。 - レコーディング2
2023年度から完全実施予定のインボイス制度に備え、経理部門は適格請求書の管理システムを刷新しました。 - レコーディング3
会議の効率化に向けて、ChatGPTを活用した議事録生成サービスを試験導入し、初年度からコスト削減につながる見込みです。 - レコーディング4
エンジニアは生成AIの学習モデルを改善するため、コードを最適化したと説明しました。 一方で、社内では行動規範、いわゆるコード・オブ・コンダクトの見直しも進めています。 - レコーディング5
新しいマーケティング施策では、クラウドを活用したデータ統合基盤を導入し、 ターゲット層の分析精度を高めることを目指しています。 ただし、クラウドファンディングのような支援型の手法も検討中です。
この5件を用いて、前世代モデルで認識エラーが発生するような検証ケースでのLarge モデルの能力を評価しました。検証結果の詳細は 4.2にて示します。
3. 評価パイプラインと指標
3.1 評価パイプライン概要
本検証で採用した評価パイプラインは以下の通りです。
1. データ準備(入力)
- 音声と正解テキストを用意
2. 音声認識処理実行と時間計測(処理)
-
両方のSTTモデルを用いて音声の書き起こしを実施
-
同時に処理時間を計測
3. 正規化(評価前処理)
-
正解テキストから記号(カッコや句読点など)を削除
-
STT書き起こしテキストからスペースを削除
4. トークン化(評価処理)
- 正規化済み正解テキストとSTTテキストを形態素分析によりトークン化
5. 評価(結果算出)
-
STT書き起こしテキストの各ワードに対して、正解、置換、挿入、削除のラベルを付ける
-
トークン化済み正解テキストからワード数を取得する
-
結果を使用して**WER(Word Error Rate)**を算出する
-
レポート用のCSVファイルに集約する。
3.2 指標
本検証で用いた主な指標は次の通りです。
-
エラーワード数(Error words) : ワードの置換、挿入、削除の合計
-
WER(Word Error Rate) : 総エラー数を正解ワード数(Truth length)で割った比率
-
処理時間 : 書き起こし実行の応答時間を記録し、音声時間に対する比率(%)を算出
3.3 手順
本検証で用いた主な手順は次の通りです。
1. 各検証音声に対し、評価パイプライン(3.1)を実行し、評価結果を取得。
2. 取得した結果から、モデル間の性能比較を実施。
補足
当検証で使用した評価パイプラインの解説とGitHubリポジトリリンクを下記記事に掲載しています。
4. モデル間性能比較結果
Largeモデルは、処理速度と認識精度の双方において前世代モデルの性能を明確に上回る結果を示しました。
4.1 NHK音声データ(処理速度)
処理速度において、Largeモデルが前世代モデルを明確に上回りました。計測した書き起こし処理時間は以下の通りです。
| # | 音声時間(秒) | モデル Model | 処理時間(秒) | 音声時間比(%) |
|---|---|---|---|---|
| 1 | 100 | 前世代(ja-JP_BroadbandModel) | 47.947 | 47.9% |
| Large(ja-JP) | 13.758 | 13.8% | ||
| 2 | 21 | 前世代(ja-JP_BroadbandModel) | 9.600 | 45.7% |
| Large(ja-JP) | 4.561 | 21.7% |
4.2 オリジナル音声データ(処理速度、認識精度)
Largeモデルは前世代モデルと比較し、エラーワードが減少しWERが大幅に改善し、認識精度が向上していることがわかりました。前項と同様、処理時間も短くなりました。各音声ファイルごとの結果は以下の通りです。
| # | 正解ワード数 | 音声時間(秒) | モデル Model | 処理時間(秒) | 音声時間比(%) | エラーワード数 | WER (エラー率) |
|---|---|---|---|---|---|---|---|
| 1 | 28 | 14 | 前世代 | 7.286 | 52.0% | 7 | 0.250 |
| Large | 5.660 | 40.4% | 4 | 0.143 | |||
| 2 | 25 | 15 | 前世代 | 6.854 | 45.7% | 10 | 0.400 |
| Large | 6.555 | 43.7% | 5 | 0.200 | |||
| 3 | 29 | 15 | 前世代 | 7.233 | 48.2% | 4 | 0.138 |
| Large | 3.878 | 25.9% | 4 | 0.138 | |||
| 4 | 40 | 20 | 前世代 | 9.439 | 47.2% | 9 | 0.225 |
| Large | 7.543 | 37.7% | 3 | 0.075 | |||
| 5 | 43 | 20 | 前世代 | 9.423 | 47.1% | 17 | 0.395 |
| Large | 5.415 | 27.0% | 6 | 0.140 |
5. Largeモデルで改善された具体例(定性的分析)
前章の計測結果では、Largeモデルがエラーワード数を大幅に削減し、認識精度が向上したことが確認できました。本章では、具体的にLargeモデルが音声書き起こしの何が改善しているのかを、書き起こし検証結果の変化部分を引用して分析します。それにより、Largeモデルの特長を把握します。
特に新しい用語や不明瞭な発話を含む音声において、処理速度も全件でLargeモデルが上回っています。
検証の結果、Largeモデルの改善は大きく次の3点に分類できます。
- (A) 新語・固有名詞・カタカナ語への対応力向上
- (B) 語形・文脈の誤認識の減少(文法精度の向上)
- (C) 曖昧音声・不明瞭発話への耐性向上
これらの改善より、エラーワード数が大きく削減される傾向が見られ、認識精度の向上につながっていることがわかりました。
以下は、各分類に紐づく具体例です。
例1.
旧モデル(誤認識ワード数 2)
促進 し て おり 国 生成 ヤイ データ 分析 の スキル
新モデル(誤認識ワード数 0)
促進 し て おり 特に 生成 AI データ 分析 の スキル
解説:
- 新語「生成AI」を正しく識別 (A)
- 「クニ生成AI」を「特に生成AI」に補正 (B)
例2.
旧モデル(誤認識ワード数 1)
やっと GPT を 活用
新モデル(誤認識ワード数 1)
チャット GPT を 活用
解説:
- 新語を「チャットGPT」を正しく識別 (A) ただしChatGPTと書けなかったため誤認識判定
例3.
旧モデル(誤認識ワード数 5)
インボイス 制度 で 障害 いい 気分 を 的確 請求 書 の
新モデル(誤認識ワード数 2)
インボイス 制度 に 障害 営利 部門 は 適格 請求 書 の
解説:
- 新語「適格請求書」を正しく識別 (A)
- 「いい気分を」を「営利部門は」に補正 (B) ただし一部誤答
例4.
旧モデル(誤認識ワード数 3)
エンジニア を 生成 家 の 学習 モデル を 改善 する ため 心 最適 化 し た
新モデル(誤認識ワード数 0)
エンジニア は 生成 AI の 学習 モデル を 改善 する ため コード を 最適 化 し た
解説:
- 新語「生成AI」を正しく識別 (A)
- 文脈に沿った語形推定(”エンジニアは",“生成AI…コードを最適化" ) (B)
例5.
旧モデル(誤認識ワード数 6)
クラウド ファンディング なる よう な 支援 が 他 の 手法 も
新モデル(誤認識ワード数 0)
クラウド ファンディング の よう な 支援 型 の
解説:
- 不明瞭・曖昧表現を文脈に基づいて整理 (C)
6. 考察
6.1 認識精度の優位性
今回の検証結果から、Largeモデルはより強力な言語(生成)モデル技術を内部で活用していることに起因する、認識精度の優位性を持つと考えることができます。
-
Transformerアーキテクチャ採用による文脈理解の深化:Largeモデルは、大規模言語モデル(LLM)にも用いられるTransformerアーキテクチャを採用しています(IBM公式文書で言及)。この最新技術の採用の恩恵を受けることで、大量のデータから文脈的なパターンを学習する能力が飛躍的に向上し、分断された語や断片的な発話から正しい語形を推定できるようになった点(言語モデルの向上)が、認識精度の向上に貢献しているものと考えられます。
-
新語への追従性:新しい用語や固有名詞への対応が改善しており、実用性が増している点。
6.2 処理速度の優位性
Largeモデルは前世代モデルと比較して、処理速度においても明確な改善を示しました。
処理速度の改善は、特に長時間の音声を扱うユースケースで実運用上のメリットが期待できることに加え、今回の検証では行わなかったリアルタイム書き起こしにおける性能向上も期待できることを示唆します。
7. まとめ
本記事では、IBM Watson Speech to Text の最新のLargeモデル(ja-JP)と、長年利用されてきた前世代モデル(ja-JP_BroadbandModel)を比較検証しました。
検証の結果、Largeモデルは以下の2点において前世代モデルに対する明確な優位性が確認されました。
1. 認識精度の劇的な向上:Transformerアーキテクチャ採用による文脈理解能力の深化が、新語・固有名詞の対応力向上、および曖昧な発話に対する耐性向上に直結し、WERを大幅に改善しました。
2. 処理速度の改善:長尺の音声データを含む全件において、前世代モデルを大きく上回る速度での書き起こしが可能となり、実運用における効率性が飛躍的に向上しました。
これらの結果は、日本語STTが最新のAI技術を取り込むことで、議事録作成、コンタクトセンターの記録、AIエージェントなど、幅広いビジネスユースケースにおいて、即戦力として期待できる水準に到達したことを示しています。
(本記事は、執筆にあたりOpenAI ChatGPT, Google Geminiを利用し、その出力を参考にしています。)