はじめに
長い文章をキーボードで打つのはもう古い!
ChatGPT や Claude への質問、ブラウザ検索、コードレビューコメント――あなたが "今まで手入力していたテキスト" を、声だけで瞬時に入力してみませんか?
世界の音声認識/API 市場は 2024 年時点で 約 38 億ドル、今後も 年 14 % 超 の成長が見込まれています。その牽引役となっているのが AI 文字起こしツールです。
本記事では、Super Whisper(本家) と、OpenAI API キーひとつで同じ快適さを提供する OSS 版 Open Super Whisper(今回開発したアプリ) を比較しながら、最速の導入方法と "AI と対話するための最強入力デバイス" としての活用術を紹介します。
1. Super Whisper とは?
1‑1. 概要
Super Whisper は、OpenAI の "Whisper" モデルをローカルに最適化したデスクトップアプリ。グローバルホットキー で瞬時に録音・文字起こしが行え、データは PC 内で完結するため プライバシー と 高速性 が両立しています。
1‑2. 主要な魅力
機能 | 体験のメリット |
---|---|
🔑 グローバルホットキー | アプリを切り替えず録音開始/停止。集中が途切れません |
🔒 オフライン処理対応 | 通信せずに変換→機密情報も安心 |
🌐 100+ 言語対応※1 | 多国籍チームでもそのまま議事録化 |
✍️ カスタム語彙 | 固有名詞や専門用語を追加して WER を削減 |
⚡ Apple Silicon 最適化 | M1/M2/M3 の GPU & Neural Engine で Whisper v3 を高速推論※2 |
🎥 使用感をチェック
料金 (2025‑04 現在)
プラン | 価格 | 備考 |
---|---|---|
Free | $0 / 月 | 小モデル無制限・録音 15 分 / 日相当 |
Pro | $8.49 / 月 | すべてのクラウド/ローカルモデル利用可 |
Lifetime | $249 / 買切り | 一度の支払いで Pro 機能を永続利用 |
※1 オフラインは Whisper の言語カバレッジ依存。Windows β はクラウドモデル推奨。
※2 Intel Mac / Windows では CPU 推論(速度は Apple Silicon 比で低下)。
2. Open Super Whisper を作った理由
「サブスク契約せずに、手元の OpenAI API キーで同じ UX を実現できないか?」
そう考えて OSS として開発したのが Open Super Whisper です。ローカル GUI は PyQt6、変換は Whisper‑1 / GPT‑4o‑Transcribe など API 経由 に切り替えたことで、以下のメリットが生まれました。
- 🔄 モデルをいつでも最新に ― Whisper‑1 → GPT‑4o‑Transcribe (2025/03 リリース) へワンクリックで変更可
- 💰 初期費用ゼロ ― 従量課金なので使った分だけ。音声入力お試し勢にも◎
- 🖥 Windows / macOS / Linux に対応 ― OS ごとに PyInstaller でビルドしたバイナリを配布
Windows 版について
Super Whisper 本家は 2025‑04‑21 時点で Windows 版を「Early Access (β)」として提供中。Open Super Whisper は Python アプリのため Windows でも問題なく利用できます。
3. アプリ構成 ✨
open-super-whisper/
├─ src/
│ ├─ core/ # 音声録音、API 連携、ホットキー
│ │ ├─ audio_recorder.py # sounddevice
│ │ ├─ hotkeys.py # pynput
│ │ └─ whisper_api.py # OpenAI Audio API
│ └─ gui/ # PyQt6 ベースの GUI
│ ├─ components/ # GUI 部品 (ボタン、ラベル等)
│ ├─ resources/ # アイコン、画像ファイル
│ ├─ windows/ # メインウィンドウ、設定画面等
│ ├─ utils/ # GUI 関連ユーティリティ
│ └─ main.py # GUI アプリケーションのエントリポイント
├─ dist/ # OS 別ビルド成果物
├─ main.py # アプリケーション起動スクリプト
└─ README.md / README.ja.md # 説明書
技術スタック
Layer | Tech |
---|---|
GUI | PyQt6 |
Hotkey | pynput |
Audio | sounddevice |
API | openai |
Build |
PyInstaller (--onefile --windowed , OS ごとにビルド) |
4. 主要機能 (Open Super Whisper)
- 🎙️ ワンタップ録音 (デフォルト: Ctrl + Shift + R)
- 🌎 100+ 言語 & 自動検出 ― Whisper API が自動判定
- 📝 カスタム語彙 ― GUI で CSV をインポート
- 🧠 システム指示 ― "XX 用語は英語表記に" などを事前付与
- 📋 自動クリップボード ― 完了後に即ペースト可能
- ⏱ 録音タイマー & ステータスアイコン
5. 対応モデル一覧 (2025‑04 時点)
モデル | 用途 | 特徴 | 料金 |
---|---|---|---|
Whisper‑1 | 汎用 | OSS Whisper v2 相当 | $0.006 / min |
GPT‑4o‑Transcribe | 高精度 | 雑音環境・多言語で WER 改善 | $0.006 / min |
GPT‑4o‑Mini‑Transcribe | 軽量 | レイテンシとコストのバランス | $0.003 / min |
ベンチマーク
OpenAI 公開テストでは、GPT‑4o 系はいずれも Whisper‑large v3 より低 Word Error Rate (WER) を達成しています。
6. インストール & 初期セットアップ
- GitHub Releases から OS に合わせたバイナリ (例: OpenSuperWhisper.exe) をダウンロード
- ダブルクリックして起動 (インストール不要・ポータブル)
- 初回起動時ウィザードで OpenAI API キー を入力すれば準備完了
7. デモ
録音 → 文字起こし → クリップボードコピーまでが 10 秒以内。テキスト入力が “手打ち” から “ワンクリック貼り付け” に変わります。
8. まとめ & コールトゥアクション
- Super Whisper で "プライバシー & 速度" を体験
- Open Super Whisper で "OSS & API の自由度" を手に入れる
⭐ GitHub で Star / Issue 大歓迎 — みなさんのフィードバックが次の機能を生みます!
リンク集
- GitHub: https://github.com/TakanariShimbo/open-super-whisper
- リリース: https://github.com/TakanariShimbo/open-super-whisper/releases
- Super Whisper: https://superwhisper.com/
- Whisper OSS: https://github.com/openai/whisper
- OpenAI Audio API: https://platform.openai.com/docs/guides/speech-to-text
🤝 最後までお読みいただきありがとうございます! この記事が "文字起こしツール選び" の参考になれば幸いです。