AI音声入力、どれを選ぶか問題
2025年、AI音声入力ツールが一気に実用レベルに達しました。中でも注目度の高い Aqua Voice(YC W24)と VoiceOS(YC Spring 2025)を、デザイン・開発の実務で使い比べてみました。
「どっちが優秀か」を調べるつもりだったのですが、結論から言うと この2つはそもそもコンセプトが違うツールでした。
後半に招待リンクも貼っておきますので、ぜひ導入の参考にしていただければ。
そもそも「AI音声入力」とは
まず前提として、この記事で扱う音声入力ツールは、macOS標準の音声入力やGoogle音声入力とは根本的に異なります。
従来の音声入力は「話した言葉をそのまま文字にする」だけでした。Aqua VoiceもVoiceOSも、AIがフィラーワード(「えーと」「あの」など)を自動で削除し、文法を整え、句読点を補完してくれます。つまり、ダラダラ喋っても「ちゃんと書いた文章」として出力される。これが2025年のAI音声入力が「実用レベル」と言える理由です。
操作方法も共通していて、ショートカットキーを長押ししている間だけ音声入力が有効になる仕組みです(どちらもハンズフリーモードもあり)。トランシーバーのPTT(Push-to-Talk)に近い感覚で、意図しない音声が入力されるのを防げます。
それでは詳しく見ていきましょう。
スペック比較
| Aqua Voice | VoiceOS | |
|---|---|---|
| YCバッチ | Winter 2024 | Spring 2025 |
| 対応OS | Mac / Windows | Mac / Windows |
| モバイル | なし | なし |
| 価格 | 無料(1,000語)/ Pro / $8 / 月(年払い時。月払いは$10) | 無料(週100回)/ Pro $12/月 |
| 処理 | クラウド(プライバシーモードあり) | トランスクリプトはローカル保存 |
| API | あり(Avalon API、Whisper互換、$0.39/h) | なし |
| ベンチマーク | AISpeak 97.3%、OpenASR 7/8勝利(vs Whisper Large v3) | 非公開 |
| セキュリティ認証 | なし | Enterprise: SOC 2 Type II, ISO 27001, HIPAA |
| 独自エンジン | Avalon (英語のみ) | 非公開 |
| コンテキスト認識 | あり(画面コンテキストをローカル処理) | あり |
| カスタム辞書 | あり(最大800語) | あり |
| 多言語 | 49言語 | 100言語以上 |
スペックだけ見ると、開発者向けにはAqua Voiceが優勢。実際、AIに「Aqua VoiceとVoiceOSを比較して」と聞くとAqua推しの回答が返ってきます。
ですが、使ってみると話が変わります。
最大の違い:「指示」の扱い
Aqua Voice:AIが自動判別する設計
Aqua Voiceにはモード切替がありません。ユーザーの発言をAIが解析し、「書き起こし」なのか「コマンド」なのかを自動で判別する仕組みです。
公式には「make this a list」「for exampleをfor instanceに変えて」のような自然言語コマンドに対応しており、実行前にUI上で「Deleting…」「Fixing Spelling…」と表示されるとのこと。
・・・なのですが、私の環境では指示が一度もコマンドとして認識されず、すべてテキストとしてそのまま書き起こされました。笑
日本語環境が原因なのかは分かりませんが、少なくとも「箱から出してすぐ使える」という体験にはなりませんでした…。(※ Proプランにアップグレードしても同様でした。うまく使えた方、ぜひ教えてください。)
※ Aqua Voiceでの「サンプルテキストを200文字の英語で書いて」の結果
VoiceOS:明示的にモードを切り替える設計
VoiceOSは公式に Dictation Mode(音声入力モード)と Ask Mode(指示モード)の2モードを備えています。
- 音声入力モード:話した内容をテキスト化
- 指示モード:LLMへの指示として実行(テキスト選択→「箇条書きにして」→ 箇条書きに変換)
ショートカットキー長押しのひと手間はありますが、「今の発言は書き起こし」「今のは指示」の境界が確実に分かれるため、誤認識が構造的に起きにくいです。
※ VoiceOSの指示モードでの「サンプルテキストを200文字の英語で書いて」の結果
AIの判別精度が100%でない限り、明示的にモードを切り替える方が実用上の信頼性は高いというのが使ってみての実感です。
指示モードが想像以上に使える
VoiceOSの指示モードは、音声入力の延長というよりも、どのアプリにも挿入できるLLMプロンプト窓として機能します。ちなみにまだBETA表記ですが、すでに十分実用レベルです。
実際に便利だったユースケースはこんな感じ。
-
ダミーテキスト生成
- 「200文字のダミーテキストを書いて」でデザインカンプに即反映
-
要約・箇条書き変換
- テキスト選択→「箇条書きにして」で箇条書きに変換
-
変換ではなかなか見つからない記号の入力
- IMEで探す代わりに「右矢印を入れて」「コピーライトマーク」で記号を挿入
-
翻訳
- 選択テキストをその場で他言語に変換
-
文章のトーン変換
- カジュアル→フォーマル、またはその逆
-
カラーコード取得
- 「Tiffanyのコーポレートカラーをウェブ用の色コードで」→ Tiffany Blue:
#0ABAB5
- 「Tiffanyのコーポレートカラーをウェブ用の色コードで」→ Tiffany Blue:
-
コードスニペット生成
- 「HTMLでサンプル画像を挿入するコードを書いて」→
<img src="..." alt="サンプル画像">がそのまま挿入
- 「HTMLでサンプル画像を挿入するコードを書いて」→
プロンプトの工夫次第で可能性は無限に広がります。これはもう音声入力ではなく、あらゆるアプリに音声で呼び出せるAIアシスタントが常駐している感覚に近いです。
ちなみに前述のとおりAqua Voiceで「200文字のダミーテキストを書いて」と言うと、そのままテキストとして出力されました。笑
VoiceOSなら指示モードで確実にダミーテキストが生成されて挿入されます。
テキスト整形の品質
「指示モードだけが取り柄なのでは?」というとそうでもありません。VoiceOSの通常の音声入力も十分に実用レベルです。
Aqua Voiceのテキスト精度も高いです。特に技術用語(kubectl、PyTorch、GPT-4oなど)の認識は、自社ベンチマークAISpeakで97.3%の精度を記録しており業界トップクラス。長文のストリーミング入力もスムーズです。
実際Claudeとのチャットのやりとりを途中からVoiceOSの音声入力に切り替えてみたのですが、Claude側は切り替わったことに気づきませんでした。タイピングと見分けがつかないレベルで自然なテキストが生成されます。
テキスト整形の品質は どちらも実用レベル で、体感差は小さいです。
プライバシーとセキュリティ
| Aqua Voice | VoiceOS | |
|---|---|---|
| 音声データ | クラウド送信(一時的に経由) | 公式:「保存しない」「ローカル保存」 |
| プライバシーモード | あり(デフォルトでオン) | あり(デフォルトでオン) |
| セキュリティ認証 | なし | Enterprise: SOC 2 Type II, ISO 27001, HIPAA |
| 信頼モデル | 契約的保証(保存しないと約束) | 「保存しない」+Enterprise認証あり |
どちらもプライバシーモードはデフォルトでオンになっています。
Aqua Voiceのプライバシーモードは「保存しない」であって「送信しない」ではありません。ただし画面コンテキストの処理はローカルで行われ、サーバーには送信されないとのこと。
VoiceOS公式サイトには「audio is never stored」「transcripts are saved locally on your device」と記載されており、Enterprise向けにはSOC 2 Type IIおよびISO 27001認証、HIPAA準拠を掲げています。
NDA案件や機密情報を扱う場合は、セキュリティ認証の面でVoiceOSに優位性があります。
開発者向け機能
ここはAqua Voiceの圧勝です。
Avalon APIはOpenAIのWhisper APIと完全互換で、base_url とモデル名を2行変えるだけで既存のWhisper統合から移行できます。
from openai import OpenAI
client = OpenAI(
api_key="your-avalon-api-key",
base_url="https://api.aqua.sh/v1"
)
transcript = client.audio.transcriptions.create(
model="avalon-1", file=audio_file
)
$0.39/時間、秒単位課金、話者ラベル・タイムスタンプ付き。OpenASRベンチマークではWhisper Large v3に8分割中7つで勝利しています。自分のプロダクトに音声認識を組み込みたいなら、現時点で最もコスパの良い選択肢のひとつです。
VoiceOSにAPIはありません。
結論:コンセプトで選ぶ
この2つは「どちらが優れているか」ではなく、何を求めているかで選ぶもの です。
Aqua Voiceを選ぶべき人
- 音声入力の精度・スピードを最優先したい
- Vibe Codingなど技術用語の認識精度が重要
- 自分のプロダクトに音声認識APIを組み込みたい
VoiceOSを選ぶべき人
- 音声で「入力」だけでなく「指示」もしたい
- ダミーテキスト生成、要約、翻訳など、LLM的な処理を声で呼び出したい
- セキュリティ認証(SOC 2等)が必要な環境で使いたい
- デザイン・ライティングなど、生成と整形を行き来する作業が多い
個人的には、実務での使いやすさからほとんどVoiceOSを使っています。Aqua Voiceも一応入れてはいますが、APIが必要な開発用途で機会があれば・・・という温度感です。
ベンチマークではAqua Voiceが上ですが、指示モードの存在が実務での使い勝手を大きく変えます。
なお、VoiceOSは音声認識を起動して無音のまま放置すると「字幕をオンにしてご視聴ください。」のような謎の文章が挿入されることがあります。笑
ユーモアなのかバグなのかは不明ですが、喋れば問題なく機能します。
(ちなみに、この記事の一部はVoiceOSの音声入力で書いています。どの部分かは、たぶんわからないと思います。)
以上、流行りの音声入力を試した速報でした!
また使い続けて気づきがあれば追記します。
Proプランが1ヶ月無料で試せます
以下の招待リンク経由でインストールすると、どちらもProプランが1ヶ月無料で利用できます。
興味があればぜひ。
Aqua Voice (音声認識APIを組み込みたい人向け)
VoiceOS (LLM的な処理を声で呼び出したい人向け)
余談:VoiceOSのマーケティングが上手い
そもそも私がVoiceOSに興味を持ったきっかけはマーケティングでした。
音声入力市場にはすでにAqua Voice、Wispr Flow、Superwhisperなど多くの競合がいます。後発のVoiceOSがスペックやベンチマークで勝負しても埋もれるだけの状況で、彼らは 「bridging the gap between thought and expression(思考と表現の間のギャップを埋める)」 と打ち出しました。これはDon Normanの「Gulf of Execution(実行の淵)」に通じる概念です。
冷静に見れば、Aqua Voiceも 「speak naturally, and let Aqua's AI refine your words(自然に話せば、AquaのAIが言葉を整えます)」 、Wispr Flowも 「Sound like you—not a robot(ロボットではなく、あなたらしく聞こえる)」 と、提供している価値は似ています。
でもVoiceOSだけが 「できること」ではなく「どんな価値を提供するか」 を打ち出していた。「思考と表現の間にギャップがある。それを埋める」機能の説明ではなく課題への共感から入るこのフレーミングは、競合がひしめく市場で後発ながら「試してみたい」と思わせる力がありました。少なくとも私はそれで興味を持ち、実際に使ってみて、この記事を書いています。
出典
Aqua Voice
-
Aqua Voice公式サイト
- 製品概要、機能、トップページ「Speak naturally, and let Aqua's AI refine your words as you talk.」の記載
-
Avalon API公式ページ
- API仕様、価格($0.39/h)、ベンチマーク(AISpeak 97.3%、OpenASR 7/8)
-
Introducing Avalon – Aqua Voice Blog
- Avalonエンジンの技術詳細、ベンチマーク方法論
-
Aqua Voice – Hacker News Launch(YC W24)
- 創業背景、YCバッチ確認
-
TechCrunch「The best AI-powered dictation apps of 2025」(2025年12月)
- Aqua Voice価格($8/月・年払い時)
-
9to5Mac「Aqua Voice shows just how good Mac dictation could be」(2025年8月)
- Aqua Voice精度検証、価格($8/月 or $96/年)
-
Aqua Voice – Product Hunt
- ユーザーレビュー、プライバシーモードの仕様
-
Cerebral Valley「Aqua Voice (YC W24) wants you to never type again」(2024年12月)
- CEO Finn Brownインタビュー、技術アーキテクチャ
-
Wispr Flow – Content Creators
- 「Sound like you—not a robot.」の記載(マーケティング比較用)
VoiceOS
-
VoiceOS公式サイト
- 価格機能、プライバシーポリシー、セキュリティ認証
-
VoiceOS About
- 「bridging the gap between thought and action」の記載
-
Y Combinator – VoiceOS
- YCバッチ(Spring 2025)、チーム情報、「bridging the gap between thought and expression」の記載
- Don Norman『The Design of Everyday Things』(初版1988年 / 改訂版2013年, Basic Books)
- 「Gulf of Execution」概念の出典(本記事のマーケティング分析で参照)。原典は Hutchins, Hollan & Norman (1986)「Direct Manipulation Interfaces」(User Centered System Design, Norman & Draper 編)
※ 価格・仕様は2026年2月時点の情報です。最新情報は各公式サイトをご確認ください。

