NVIDIA Parakeet-TDT × Apple Silicon で実現する爆速ローカル文字起こし

Posted at 2025-10-12

音声認識 AI といえば、これまではクラウド API や GPU サーバーに依存するのが一般的でした。
しかし NVIDIA が開発した Parakeet-TDT（Token-and-Duration Transducer, 約 0.6B パラメータ） を Apple MLX バックエンドで動かすことで、Mac 1台で即座に日本語の文字起こしが完結する時代が到来しました。

このモデルは Creative Commons BY 4.0 ライセンスで公開され、Hugging Face の ASR リーダーボードでもカテゴリ首位にランクインしています。

本記事では、このモデルを活用して開発した macOS 向けアプリ MimiTranscribe の設計背景と、NVIDIA Parakeet-TDT の技術的な魅力をご紹介します。

なぜ Parakeet-TDT なのか？

1. NVIDIA が誇る次世代 ASR モデル

Parakeet-TDT（Token-and-Duration Transducer） は、NVIDIA が公開した FastConformer エンコーダと TDT デコーダを組み合わせた音声認識モデルです。従来の Seq2Seq や RNN-T と比べ、次のような特徴があります。

軽量かつ高速：わずか 約 0.6B パラメータで、大型モデルに匹敵する精度を実現。
FastConformer による Local + Global Attention：ローカルウィンドウ内での Attention とグローバルトークンを併用し、長時間音声でもメモリ効率を維持。
TDT デコーダによる Blank Skip：RNN-T を拡張し、トークンと継続フレーム数を同時に予測。大量の blank トークン生成を省き、推論ステップを大幅に削減。
CTC + TDT ハイブリッド構成：CTC ライクな分岐による並列推論と、TDT の高精度な時間整合を両立。

NVIDIA はこのモデルを、低レイテンシが求められる産業用途（医療・金融・コールセンターなど）向けに設計しました。その成果が CC BY 4.0 ライセンスで無償公開され、誰でも利用できるようになっています。

2. Apple MLX との抜群の相性

Apple Silicon（M1 / M2 / M3）は、統合メモリアーキテクチャと Neural Engine により、小型モデルの推論性能が極めて高いのが特徴です。しかし従来の PyTorch や TensorFlow などの汎用フレームワークでは、Apple 独自の最適化を十分に活かしきれませんでした。

そこで登場したのが Apple MLX。Apple が開発した新しい機械学習フレームワークで、Metal を直接利用して Unified Memory と Neural Engine を最大限活用します。NumPy ライクな API で GPU/NPU をシームレスに使い分けられ、2GB 程度の統合メモリでも Parakeet-TDT を動作させられることが報告されています。

Parakeet-TDT の軽量設計と MLX の最適化が組み合わさることで、CPU + GPU のハイブリッド推論が実現。結果として、数秒の音声を 1 秒未満で文字起こしできるようになりました。

MimiTranscribe

nvidia の最新モデルを簡単に触れられるように

今回このモデルを使った Speech to Text 的なローカルアプリを開発してみました。勿論モデルはローカルで動作していますので音声データは外部に送信されません。大規模な Whisper 等と比べるとモデルが把握している専門用語等の量で精度の差が生じてしまうかもしれませんが、このモデルの精度でも日常使いに十分だと私は感じていますので、セキュリティ的にそういった PaaS を使えないとかそんな環境で役に立ってくれるのではと思っています。

録音ボタン一つでマイク入力から推論まで自動実行
リアルタイム波形モニタで音声入力を視覚的に確認
履歴管理機能により過去の文字起こしを即座に再表示・コピー可能

完全ローカル動作

上述の通りクラウド API に依存しないため、以下のメリットがあります。

プライバシー保護：音声データは外部に送信されない
コストゼロ：従量課金なしで無制限利用
オフライン対応：初回のモデルダウンロード以外はネット不要

Apple Silicon 最適化

MLX の強みを最大限に引き出すため、以下の設定が可能です。

FP16 / FP32 モード切り替え：メモリと精度を最適化
Local Attention 有効化：長尺音声のメモリ効率を改善
Chunked Inference：音声をチャンク分割し並列処理でさらに高速化

まとめ

NVIDIA Parakeet-TDT と Apple MLX の組み合わせにより、Mac 1台で完結する高速・高精度な音声認識が実現しました。MimiTranscribe は、隙間時間に作った小規模なアプリですが、是非 UI を通して nvidia のモデルにも触れてみてもらえれば幸いです。

リンク

作ってみたアプリのレポジトリ: https://github.com/ymuichiro/mimi-transcribe
NVIDIA Parakeet 公式: https://huggingface.co/nvidia/parakeet-tdt_ctc-0.6b-ja
Apple MLX: https://github.com/ml-explore/mlx

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up