はじめに
Claude Code、ChatGPT、Cursor、NotebookLM。日々AIに何かを頼むたびに、長めのプロンプトをキーボードで打っている。
ふと気づく。
「プロンプトを書くの、めちゃくちゃ面倒くさくないか?」
コードを書くのも、リサーチも、ドキュメント作成も、最近はだいたいAIに任せられる。自分がやっていることは結局、AIに「これをこういう前提でやって」と説明することだけだ。それなのに、その指示を毎回キーボードでカチャカチャ打っている。考えていることをそのまま喋れたら、何倍も速いはずだ。
そう思い立って、ここ数か月で4つの音声入力アプリを試した。結論から書くと、最終的に Aqua Voice に落ち着いた。
この記事では、
- 4つのアプリを実際に使って感じた精度・使い勝手の違い
- それぞれの開発元・創業者・技術アプローチ(単なるレビューにしないため)
- AirPodsを使うと劇的に精度が上がる話、機密情報の扱い
をまとめる。想定読者は AIに毎日プロンプトを投げている人すべて。Claude Code を使う開発者はもちろん、ChatGPTでリサーチするPM・PdM、Claudeで企画書を書くプランナー、生成AIで素材を作るデザイナー、業務でAIを多用しているなら誰でも対象。「プロンプトを書くのが面倒」と一度でも思ったことがあるなら、音声入力に切り替えるだけで生活が変わる。
環境
- OS: macOS 15.x (Apple Silicon)
- 主な用途: Claude Code / Cursor / ChatGPT / Slack への入力
- 入力デバイス: MacBook内蔵マイク、AirPods Pro 2
- 試した期間: 2026年初頭〜5月
目次
| 章 | タイトル |
|---|---|
| 1 | なぜ「音声入力」が再び熱いのか |
| 2 | 試した4アプリの比較表 |
| 3 | 各アプリ詳細(開発元・思想・技術) |
| 4 | なぜAqua Voiceに落ち着いたか |
| 5 | 実践Tips(AirPods・機密情報) |
| 6 | おわりに |
1. なぜ「音声入力」が再び熱いのか
音声入力自体は新しい技術ではない。macOSにもWindowsにも標準で機能はある。Dragon NaturallySpeakingに至っては30年以上の歴史を持つ。
それなのに、なぜ2024〜2026年にかけて新興プレイヤーが続々と参入しているのか。理由は2つある。
1-1. OpenAI Whisper(2022)が精度のベースラインを引き上げた
2022年9月にOpenAIが発表した Whisper は、68万時間の多言語音声で学習された音声認識モデルで、これがオープンソースとして公開された。最新の large-v3 は100万時間の弱ラベル音声+400万時間の擬似ラベル音声で学習されている。
これで「個人開発者でも、Apple や Google に匹敵する精度のSTT(Speech-to-Text)を組み込めるようになった」状態が生まれた。
1-2. LLMが「音声 → きれいなテキスト」の整形を担うようになった
Whisperで音声をテキスト化したあと、LLMで整形する。これが新世代アプリの基本構造だ。
旧来の音声入力は「えーっと、その、なんていうかな」までそのまま出てしまっていた。LLMが入ることで、フィラーを除去し、口語を文章にし、コード断片を整形するところまで一気にこなせる。
この Audio + LLM の構造が、いま音声入力アプリを面白くしている本質だ。Aqua Voice、Superwhisper、VoiceOSはいずれもこの流れに乗っている。
2. 試した4アプリの比較表
実際に使ってみた評価がこちら。
| アプリ | 開発元 | 処理 | 個人的な精度評価 | 月額目安 |
|---|---|---|---|---|
| Mac標準音声入力 | Apple | ローカル | × 短い英単語(F5 → FG)すら認識せず | 無料 |
| Superwhisper | SuperUltra, Inc. (Toronto) | ローカル(whisper.cpp / Parakeet) | △ 期待ほど精度が出ず | 買い切り or サブスク |
| VoiceOS | VoiceOS (YC X25) | クラウド | △ 微妙 | サブスク |
| Aqua Voice | Aqua Voice Inc. (SF, YC W24) | クラウド(Audio + LLM) | ◎ 明らかに違った | サブスク |
「個人的な精度評価」はあくまで自分の用途(日本語と英語が混ざる開発関連の発話)での印象。発話スタイルや言語によって結果は変わると思う。
3. 各アプリ詳細
3-1. Mac標準音声入力 — まず期待してはいけない
最初に試したのはMac標準の音声入力(fnキー2回で起動するやつ)。
結論、これは諦めたほうがいい。
具体的に何が起きたかというと、「F5」と言うと「FG」になる。アルファベットの単発発音すらまともに取れない。コード関連の用語(function, useEffect など)に至っては毎回違う何かに化ける。
おそらくMac標準は「日本語の会話を文章にする」ことには最適化されているのだろうが、開発者が混ぜて喋る英単語・記号・技術用語に対応するようには作られていない。
「とりあえずOS標準でいけるんじゃない?」と思って試したが、5分で見切りをつけた。
3-2. Superwhisper — プライバシー特化のローカル派
開発元は SuperUltra, Inc.(カナダ・トロント拠点)。創業者は Neil Chudleigh で、もとは PartnerStack の共同創業者だった人物。2023年8月にHacker Newsでローンチして以降、VCを入れずブートストラップで運営している。
技術的な特徴は明確で、ローカル処理(オフライン動作) に振り切っている。OpenAI の Whisper を C++ で軽量実装した whisper.cpp、加えて NVIDIA Parakeet をベースに、すべての音声処理を端末上で完結させる。
オフラインで動く=音声データが外部に出ない、というのが Superwhisper の最大のセールスポイント。Meta、OpenAI、Coinbase、Dropbox など、機密性の高い企業の社員にも多く使われているとされる。
良い点:
- プライバシー観点で安心(クラウドに音声を送らない)
- ネット接続不要
イマイチに感じた点(自分の用途では):
- 認識精度が、後述するAqua Voiceに比べると物足りなかった
- LLMによる整形をクラウドAPIに頼る設定もあるが、フルローカルだと整形がやや弱い
「業務上、音声データを外に出せない」人にはこれ一択だと思う。
3-3. VoiceOS — Siri for Productivityを掲げる新興
開発元は VoiceOS、Y Combinator のSpring 2025バッチ(X25)から出てきたばかりの会社。創業者は Jonah Daian(CEO、過去7年間 音声AI領域でコンシューマ向けからエンタープライズまで開発)、Kai Brokering(東京生まれ、15歳でアメリカへ)を含む4名。
VoiceOSが他と違うのは、単なる「音声 → テキスト」ではなく、音声でアプリを操作する ところを狙っている点。
- Dictation Mode: 音声を整形してテキスト挿入(普通の音声入力)
- Agent Mode: Slack送信・Gmail作成・カレンダー登録などをAIエージェントが実行
ビジョンは魅力的。ただ自分が試した時点では、Dictation Modeの精度・レイテンシともAqua Voiceには及ばず、Agent Modeも「自分でやったほうが早い」と感じる場面が多かった。
新興プロダクトなので、半年後には景色が変わっているかもしれない。
3-4. Aqua Voice — Audio + LLM特化のクラウド派
最終的に落ち着いたのがこれ。開発元は Aqua Voice Inc.(サンフランシスコ)、Y Combinator W24バッチ出身。
創業者の物語が面白い。
- Finnian Brown(CEO、Harvard卒・哲学): ディスレクシア(読み書き障害)があり、小学校6年生の頃から音声入力ソフトの Dragon を使ってきた。「音声入力で文章を書く」ことが、ずっと自分の主たる入力手段だった人。
- Jack McIntire(CTO、Harvard中退): 元 Arcturus Intelligence のエンジニア。
「音声で書く」ことに本気で向き合ってきた人間が作っているプロダクトという背景が、使うとすぐにわかる。
技術アプローチは Audio + LLM のクラウド処理。Superwhisperのローカル派とは思想が真逆で、クラウドの計算力を全力で使って精度とレスポンスを稼ぐ。公称値で次のような数字を出している。
- 起動 50ms 以下
- 発話停止から テキスト挿入まで 450ms
- 技術用語の認識精度 97%
実際に使うと、上記の数字に嘘はないと感じる。Claude Code への指示を喋り終えた瞬間にテキストが入っている。useState、tsconfig、pnpm といった開発系の用語もまず化けない。
4. なぜAqua Voiceに落ち着いたか
並べて使った結果、自分にとっての決め手は3つだった。
4-1. 技術用語と日英混在に強い
開発者の発話は「useEffect の dependency 配列に依存値を入れて」みたいな日英混在になる。Aqua Voice はこのケースを安定して捌く。一方で他のアプリは、英単語のところで頻繁にカタカナ化・誤認識が発生した。
4-2. レイテンシが意識から消える
発話を止めた瞬間にテキストが入っている、という体験は想像以上に効く。0.5秒のラグでも「待たされている」感覚は出るもので、それが無い状態は思考の流れを切らない。
4-3. Claude CodeやCursorのプロンプトとして使いやすい
Aqua Voice には、入れたテキストをLLMで整形するモード(命令文への整形、コード整形など)がある。喋った内容がそのまま「Claude Codeへの指示として通りやすい文章」に整形されて入るので、後でテキストを直す手間がほぼ無い。
5. 実践Tips
5-1. AirPodsやイヤホン経由で使うと精度が上がる
これは盲点だった。
Macの内蔵マイクで使うのと、AirPods Pro 2 で使うのとで、認識精度が体感ではっきり違う。内蔵マイクだと環境音と空調の音を拾い、特に英単語の発音が誤認識されやすい。AirPodsに切り替えるだけで、化ける頻度が目に見えて減る。
理由はおそらく、口元との距離・ビームフォーミング・ノイズ低減のためで、どの音声入力アプリでも有効なはず。音声入力を真面目に運用するなら、内蔵マイクをやめてイヤホンに切り替える、これだけで体験がかなり変わる。
5-2. 機密情報を扱う場面ではクラウド系を避ける
Aqua Voice と VoiceOS はクラウドで処理される。つまり、自分が喋った音声・テキストは、その会社のサーバーを通る。
普段の開発用途では問題ないが、
- 顧客情報・個人情報を含む指示
- 未公開の事業計画・経営情報
- 社外秘のコードベースの内容
を喋るときは要注意だ。そういう場面では、ローカル処理の Superwhisper(whisper.cpp や Parakeet を端末上で動かす構成)に切り替えるか、そもそも音声入力を使わずキーボードに戻すのが安全。
6. おわりに
タイピングが好きな人にとっては「わざわざ音声に切り替える意味があるのか」と思うかもしれない。自分も最初はそうだった。
ただ、AIに長めのプロンプトを書く生活を毎日していると、思考のスピードに対してキーボード入力は明らかに遅い。考えていることをそのまま喋るほうが、テキストに変換する過程の摩擦が圧倒的に少ない。これは開発者に限った話ではなく、ChatGPTにリサーチを頼むPM、Claudeに企画書のドラフトを書かせるPdM、生成AIで素材を作るデザイナー、Notion AIで議事録を整えるオペレーション担当、AIを業務で使っている人すべてに効く話だと思う。
「プロンプトを書くのが面倒」と感じている人ほど、効果が大きい。
まとめると、
- Mac標準 はAI用途では使い物にならない(短い英単語すら化ける)
- Superwhisper はプライバシー重視のローカル派、機密情報を扱う人向け
- VoiceOS はAgent型の野心はあるが現時点ではAqua Voiceに精度で及ばず
- Aqua Voice はクラウドで全力チューニング、AIへの指示出し用途では現状ベスト
- AirPodsを使う だけで精度が一段上がる
- クラウド系は機密情報の入力に注意
音声入力は「タイピングの代替」というより、AIに指示するレイヤーで効いてくる新しい入力デバイスだ、というのが3か月使った今の感想です。
Welcome!
株式会社シンシアでは、実務未経験のエンジニアの方や学生エンジニアインターンを採用し一緒に働いています。
※ シンシアにおける働き方の様子はこちら
参考
- Aqua Voice — Y Combinator
- Launch HN: Aqua Voice (YC W24) – Voice-driven text editor
- Superwhisper 公式
- How a Toronto AI startup hopes to make the keyboard obsolete — The Globe and Mail
- AIMinds Podcast with Neil Chudleigh (Superwhisper)
- VoiceOS — Y Combinator
- Introducing Whisper — OpenAI
- openai/whisper-large-v3 — Hugging Face