はじめに
最近私はタイピングの代わりに音声入力を積極的に活用するようになった。手持ちの様々な端末での使用を通して音声入力技術の進化を実感し、その精度の高さに驚かされることも多い。
この体験から、現代の文字起こし技術にはどのような種類があり、各プロダクトがどのような特徴を持っているのか、改めて調査してみることにした。本稿では、従来型からAI活用まで、文字起こし技術の全体像を概観していく。
いろいろな情報をWebから漁って調べたため、元の情報に誤りがあるかもしれない。またサービスも日進月歩で進化しているため、方式がいつの間にか変わっていることも予想されるだろう。ご留意いただきたい。
文字起こし技術の種類と進化
文字起こし技術は大きく分けて 従来型 と AI/ML型 に分類できる。この二つにはどのような違いがあるのだろうか。
従来型文字起こし - シンプルだが精度に課題
従来型の自動文字起こしとは、比較的単純なアルゴリズムで音声データを文字情報に変換するシステムだ。以前から存在するYouTubeの自動字幕やChromeブラウザのアクセシビリティ機能、Windowsのアクセシビリティ機能などがこれに該当する。
これらのシステムは音声認識の基本的な技術を使用しているが、特殊な単語や早口の発話、複数人が同時に話す場面などでは精度が低下しがちだ。
AI/ML型文字起こし - 高速かつインテリジェント
近年急速に発展したのが、AI・機械学習を活用した文字起こしだ。高度な音声認識技術を活用して、自動的に音声をテキストに変換する。単なる変換にとどまらず、話者の識別や要約まで行えるプロダクトも登場している。
AI/ML型の最大のメリットは、リアルタイム性と処理速度だ。会議中の発言を即座にテキスト化したり、長時間の録音データを数分で処理したりできる。また、モデルの進化で特定の専門用語や話者の癖にも対応できるようになってきた。
AI/ML型文字起こしの処理方式 - どこで変換される?
AI/ML型の文字起こしは、処理が行われる場所によって クライアントサイド と サーバーサイド の2つに分類できる。この違いが用途や性能を大きく左右する。
クライアントサイド(NPU) - 手元で高速処理
クライアントサイド処理の最新トレンドは、NPU(Neural Processing Unit)を活用したオンデバイス処理だ。NPUとは、ニューラルネットワークの計算に特化したプロセッサのことで、AIや機械学習を効率よく処理できる特殊なハードウェアである。
例えば、GoogleのPixelシリーズに搭載されている「レコーダー」の書き起こし機能は、Google独自開発のTensorチップセットを活用したオンデバイスAIによる書き起こしを実現している。また、Apple Silicon採用のMacに搭載されたNeural Engineも精度の高い音声入力機能があり、同様の役割を果たしている。
クライアントサイド処理の最大のメリットは以下の3点だ:
- インターネット接続不要 - オフラインでも高精度な文字起こしが可能
- プライバシー保護 - 音声データが外部に送信されない
- 低遅延 - サーバーとの通信ラグがないため、よりリアルタイムな処理が可能
端末の処理能力に依存するため、最新のデバイスでないと使えなかったり高い精度を得られなかったりする場合がある。
サーバーサイド(クラウド) - スケーラブルだが高コスト
サーバーサイド処理、いわゆるクラウド型の文字起こしは、音声データをインターネット経由でサーバーに送信し、処理結果を受け取る方式だ。
代表的なサービスとしては、以下のようなものがある:
- Amazon Transcribe
- Google Cloud Speech-to-Text
- Microsoft Azure AI Services
サーバーサイド処理の強みは以下の点だ:
- 高い処理能力 - クラウドの膨大な計算リソースを活用できる
- 継続的な精度向上 - モデルが常に更新され、精度が向上し続ける
- 柔軟なスケーリング - 大量のデータを一度に処理することも可能
例えばAmazon Transcribeには、句読点や話者識別だけでなく、有害な音声のフィルタリングなど様々な機能が搭載されているようだ。技術の進歩に驚かされる。
ただし、インターネット接続が必須となることや場合によってはプライバシーで懸念が残ることもある。また、AI系サービスの金額設定は一般に高額で、大量の音声データを処理する場合は相当なコストがかかることが多い。
私はAmazon Transcribeを数回試しただけでそれなりのコストになってしまったことがある。本当はこのサービスを使って会議の要約アプリを作ってみたかったのだが断念してしまった。
文字起こしプロダクトの分類マップ
※厳密ではないのはご留意いただきたい。
実際のプロダクトに見る文字起こし技術
MacOSの音声入力機能 - Neural Engineの真価
最新のMacでは、Apple Siliconに搭載されたNeural Engineを活用し、精度の高い音声入力機能があり、一般的なテキスト入力のための音声認識をデバイス上で処理できる。システム設定のキーボード設定から確認可能だ。
私の経験では、MacOSの音声入力システムは特に精度が群を抜いて高いと感じた。
Siriを介した処理では、従来通りサーバーサイド処理も併用されているらしい。

音声入力機能では、多くの音声の入力をこのMac上で処理します。Appleに情報が送信される場合があります。
ちなみに、私がマシンリソースを見ながら音声入力やSiriを使ったとき、ちゃんとNeural Engineの使用率が上がっていた。
Google Pixelの文字起こし・音声入力機能 - これが「AIスマホ」
Google Pixelには優れた文字起こし関連機能が複数搭載されている。 レコーダーアプリでは、録音と同時に文字起こしを行い、後から内容の検索も可能だ。
Live Transcribe(音声文字変換) と呼ばれるアクセシビリティ機能はデバイスの周囲の音を検知し自動的に文字に変換し、リアルタイムで字幕として表示する機能である。元々は聴覚障害者向けに開発されたが、私の使用経験では、この機能はとにかく高速で精度も高いと感じた。
Androidでお馴染みのIME、Gboard には音声入力も提供されている。どうやらPixel限定で「高度な音声入力機能」というデバイス処理の特別な音声入力機能が使える。
私は試しに機内モードに設定して使ってみたところ使うことができたため、ちゃんとデバイス上で処理されているようだ。

まとめ - 文字起こし技術の未来
文字起こし技術は急速に進化しており、AI技術の発展とNPUなどの専用ハードウェアの普及により、今後もさらに高度化していくだろう。
特に注目すべきは、オンデバイス処理の精度向上だ。これまではサーバーサイド処理に劣っていた精度が、NPUの性能向上によって急速に改善している。今回はAndroidとMacを中心に取り上げたが、WindowsのCopilot+PCも徐々に普及されつつある。将来的には、NPUを使った高精度な文字起こしが、どんな端末でも当たり前になる日が来るかもしれない。
これからもアンテナを張り続けて、適材適所で最適な機能を選択し、効率的なデジタルライフ(ワーク)を実現したい。