TL;DR
- AquaVoice のような音声入力体験をiPhoneでも実現したかった
- iOSショートカットでGemini APIを叩いているだけ
- 固有名詞も専門用語もちゃんと認識してくれて、標準音声入力の精度問題を解決
背景
世は大音声入力時代。PCではAquaVoiceという、精度が非常に高い音声入力サービスがあり、ほとんどキーボードを使わなくても文字入力をすることができるようになってきている。
iPhoneでもそのような体験がしたい!
そもそもオフィスではなかなか音声入力ができないので、個人的にはPCよりもスマホで音声入力をする機会の方が多い。用途としては、考え事をメモしたり、簡単なLINEを送ったり、AIのプロンプトを打ったり、調べ物をしたり。
しかし、iPhone標準の音声入力の現実:
- 「Google」→「ググール」
- 「GitHub」→「ギットハブ」
- 専門用語や固有名詞の変換が特に甘く、結局打ち直すことが多い(長い文章になると、結構な手間)
なんで音声入力が流行っているの?
あくまで私の仮説ですが...
- チャット形式で自然言語を入力する機会が増えたから
- 90%くらいの精度でも、生成AIがよしなに汲み取ってくれるから
- LLMの発達でシンプルに音声入力の精度が上がってきたから
- アイデア→言語化のスピード感と相性がいいから
今回作ったもの
音声をGeminiで超高精度文字起こししてくれる iOSショートカット
できること
- アクションボタン1つで起動 → 音声入力 → 自動でクリップボードにコピー
- 固有名詞・専門用語も高精度で認識
- 3〜8秒の高速処理
📱 こちらからダウンロード して、そのまま使うもよし、ご自由にカスタマイズしてもOKです。
初期設定(3分で完了)
1. Gemini のAPIキーの取得
今回の文字起こしにはGoogleの生成AI Gemini のAPIキーを利用しているので、こちらからAPIキーを取得してください。
2. ショートカットの導入
ダウンロードリンクから追加して、取得したAPIキーを設定するだけです。
具体的な動作
1. アクションボタンで起動
iPhoneのアクションボタンで起動。
アクションボタンが付いていない機種の場合、背面タップやAssistiveTouchもありかと思います。
2. オーディオで入力したい内容を話す
iOSショートカットには、音声をローカルで文字起こしする機能もあります。しかし、それはiPhoneの音声入力と同じ精度の文字起こしを使用することになるので、今回は音声を直接Geminiに送信しています。
3. Geminiで音声が文字起こしされる
精度はかなり高いと思います。また、制約やお好みの条件を適宜プロンプトで自由に制御できるので、カスタマイズもしやすいです。
今回のポイント:構造化出力を使用
これにより、「かしこまりました。音声の内容は...」みたいな余計な前置きや説明が出力されず、目的の生成物のみが確実に出力されるようになっています。
Gemini 2.5 Flashだと構造化出力を使用せずとも高い確率で目的の部分のみが出力されたのですが、Gemini 2.5 Flash-Liteだとかなりの確率でそのまま使用できるテキストにはなりませんでした。
今回はスピードを重視してGemini 2.5 Flash-Liteを使用したかったので、構造化出力がいい解決策になりました。
4. 文字起こしされた内容がクリップボードにコピーされる
※音声の長さによりますが、ここまでで3秒〜8秒くらいかかります。
最短ルートで入力するためにクリップボードを出口にしていますが、これはお好みでカスタマイズできます。
カスタマイズ例:
- メニューから選択して「Safariで検索」「メモ帳に追加」「ChatGPTに送信」「クリップボードにコピー」
- 特定のアプリに直接送信
- 特定の形式(Markdown, XML, 要約)に整形してコピー
個人的には、箇条書きをいくつか含んだちょっとしたメモの入力に使用することが多く、長い場合はMarkdownで整形するようにプロンプトで指示しています。
料金
- GeminiのAPI料金がかかります
- 無料枠が提供されています
- 音声を処理しているので、使用頻度や音声ファイルの長さによっては高額になる可能性があります。あくまで自己責任でお願いします
参考:1時間の音声で数十円程度なので、普通に使う分にはそんなに気にならないかと。
注意: 無料枠の場合、入力データがサービス改善の学習に使用されるので、理解した上で使用をお願いいたします。
今後の展望
-
動作高速化
- 3〜8秒は個人的には許容できるレベルですが、iPhone標準の音声入力と比べると体験が悪い。
-
リアルタイム入力
- やはり音声入力しながら内容が見れることを重視している人もいると思うので、実現できたら文句なし。
-
AppleIntelligenceによる高速化orネイティブ対応
- iOS 26でApple Intelligenceがショートカットに組み込めるようになるみたいなので、もっと早いスピードでこれを実現できるようになるかもしれません。(Apple発表)
- 標準の音声入力にApple Intelligenceを活用してAquaVoice並みの精度になれば最高ですが...
おわりに
私事ですが、Qiita初投稿記事でした!
ここまで読んでいただきありがとうございました。
よき音声入力ライフを!!