安全に使用できる音声入力ツール
Windows Whisper は、Windows 10/11向けの音声文字起こしアプリです。
初めて、Python + PySide6で作成してみました。個人的に走らないことが多数あったのでこのあとシェアしていきたいと思います。
最近、AIを使うときに音声入力に対応しているものも結構ありますが、まだまだ対応していないものもいくつかあります。そこで、音声で入力できるようにしたいと考え、いろいろアプリケーションを探しましたが、有料のものが非常に多かったので、簡単に無料で使えるものを作ってみました。
-
Ctrl+Spaceで録音開始/停止 - 文字起こし結果を 自動でクリップボードにコピー
- 必要なら アクティブなウィンドウへ自動貼り付け
- OpenAI/Groq/Azure/OpenRouter/ローカル/オフライン(whisper.cpp)など、複数の方式を切り替え可能
- さらに LLM連携 で、翻訳・要約・整形など「文脈に合わせた出力」もできる
「会議メモ」「思いつきのメモ」「文章の下書き」を、とにかく手数少なく入力したい人向けです。
ダウンロード
できること(ざっくり)
- グローバルホットキーで、どのアプリの上でも録音スタート
- 録音中はオーバーレイで状態や波形が見える
- 結果はコピー&貼り付けまで自動化できる
- LLM連携で、翻訳や要約、整形など「文脈に合わせた出力」にできる(任意)
- カスタム辞書で専門用語の表記ゆれを減らせる
- オフラインモードなら、APIキー不要でローカル処理できる(初回はモデルDLが必要)
こんな人におすすめ
- キーボード入力がしんどい日がある
- チャットやメモに「今話した内容」をすぐ流し込みたい
- API課金を抑えたい or オフラインで動かしたい
- 社外に音声を出したくない(or 送信先を自分で選びたい)
- 「録音→ファイル→アップロード」みたいな手間をなくしたい
初回セットアップ(ここだけやればOK)
初回起動時はウィザードでサクッと設定します。
- 使うプロバイダーを選ぶ(例:OpenAI / Groq / オフライン)
- APIキーが必要なら入力(オフラインは不要)
- 接続テスト
オフラインを選ぶと、whisper.cpp本体とモデルが必要です。
初回だけダウンロードが走ります(モデルは tiny/base/small/... みたいにサイズが違います)。
使い方(最短)
-
Ctrl+Space:録音開始 - しゃべる
-
Ctrl+Space:録音停止 → 文字起こし開始 - 終わったら、結果がクリップボードに入り、必要なら自動で貼り付けされます
録音中にキャンセルしたいときは ESC。
LLM連携(翻訳・要約・整形)
Windows Whisper は、音声をWhisperで文字にしたあと、LLMで後処理することもできます(任意)。

やれることの例:
- 翻訳:日本語で話した内容を英語に直す
- 整形:箇条書き・議事録っぽく整える
- 要約:長めに話した内容を短くまとめる
- 文脈補完:言い直しや言い淀みを整えて読みやすくする
ポイントは「音声認識の精度を上げる」というより、出力の形を“使える形”に寄せるところです。
※ LLMを使う場合は別途APIキーが必要で、追加の待ち時間/コストが発生します。
セキュリティ/プライバシー的にうれしいところ
このアプリのポイントは、「どこに音声を出すか」や「どこまでローカルで完結させるか」を選べるところです。
- オフライン(whisper.cpp):音声が外部に送られず、ローカルで完結できます(初回はモデルDLが必要)
- 自分のAPI/ローカルサーバー:OpenAI互換のエンドポイントを自前で立てて、そこに投げる運用も可能です
- LLM後処理も任意:翻訳や整形は便利だけど、不要ならオフにして“文字起こしだけ”にもできます
注意点として、オンラインのプロバイダーを選んだ場合は音声データが送信されます。
用途に応じて「オンライン/オフライン/自前」を切り替えられるのが強みです。
便利な設定
- 自動貼り付け:チャット欄やエディタにそのまま流し込みたいならON
- クリップボード自動コピー:貼り付けは自分でやりたいならONだけでも便利
- 言語:日本語固定 or auto(自動判定)
- (Whisper用)プロンプト:固有名詞が多いときに少し効くことがある
- (LLM用)プロンプト:翻訳/要約/整形などの指示(プリセットを選ぶ想定)
- カスタム辞書:よく間違える単語を置換して後処理
辞書の例(置換前 -> 置換後):
ウィスパー -> Windows Whisper
じーぴーてぃー -> ChatGPT
よくあるハマりどころ
-
ホットキーが反応しない
- すでに別アプリが同じホットキーを使っている可能性があります
- 設定でホットキーを変更してみてください
-
管理者権限で動いているアプリ相手だと挙動が変
- Windowsの仕様で、入力やフック系は権限の影響を受けます
-
オフラインが遅い/重い
- モデルが大きいほど精度は上がりがちですが、重くなります
- まずは
baseあたりから試すのがおすすめです
どこに設定が保存される?
- 設定:
%APPDATA%\WindowsWhisper\config.json - 辞書:
%APPDATA%\WindowsWhisper\dictionary.txt - ログ:
%TEMP%\whisper_app.log - オフラインモデル:
%APPDATA%\WindowsWhisper\models\
まとめ
Windows Whisper は「録音して文字起こし」だけじゃなく、**結果をすぐ使えるところ(コピー/貼り付け)**まで含めてショートカット化したアプリです。
さらに、オフライン/自前API/LLM を選べるので、用途に合わせて「便利さ」と「プライバシー」を両立できます。
- まずは
Ctrl+Spaceで1回使ってみる - 便利だと思ったら「自動貼り付け」と「辞書」を育てる
- APIが気になるならオフラインも試す
この3ステップで、日常の入力がだいぶラクになります。
