はじめに
株式会社ブレインパッドプロダクトユニットでRtoaster GenAIの開発をしている大畑です。
タイピングが面倒なときに音声でサッとテキスト入力できたら便利ですよね。
Macにはネイティブの音声入力機能が標準搭載されていますが、Whisperingを使うとこんなメリットがあります。
- 精度が高い:OpenAI Whisperベースのため、日本語や専門用語・固有名詞の認識精度がMacネイティブより優れている
- どこでも使える:グローバルショートカットでどのアプリ上からでも一貫して使える
- 録音履歴が残る:文字起こし結果がRecordingsに自動保存されるので後から見返せる
この記事では、OpenAI Whisperベースのオープンソース音声入力ツール Whispering を、無料でMacにセットアップする方法を紹介します。
Whisperingの特徴
- オープンソース・完全無料(本体アプリ)
- グローバルショートカットでどのアプリからでも音声入力できる
- 文字起こし結果を自動でクリップボードにコピー&ペースト
- Mac / Windows / Linux 対応
Aqua Voiceとの比較
以前はAqua Voiceを使っていましたが、無料枠が切れたタイミングでWhisperingに乗り換えました。
| ツール | 費用 | 精度 | ラグ |
|---|---|---|---|
| Whispering | 無料(Groq無料枠) | ◎ | FFmpeg設定で少ない |
| Aqua Voice | 無料枠あり・有料プランあり | ◎ | 少ない |
Aqua Voiceと比べるとFFmpegなしの場合は録音開始まで2〜3秒のラグがありますが、FFmpegを設定するとほとんどラグなく使用できます。
必要なもの
- Mac(Apple Silicon または Intel)
- Groqのアカウント(無料・クレジットカード不要)
Step 1:Whisperingをダウンロードする
Whisperingは現在 EpicenterHQ/epicenter というリポジトリで開発されています。
以下のReleasesページから、お使いのMacに合ったDMGファイルをダウンロードしてください。
👉 EpicenterHQ/epicenter Releases
(今回はWhispering_7.11.0_aarch64.dmgをダウンロードしました。)
Apple SiliconかIntel Macかわからない場合は、画面左上のAppleメニュー → 「このMacについて」で確認できます。「チップ」欄にApple M1などと書いてあればApple Siliconです。
Step 2:マイクとアクセシビリティの権限を許可する
グローバルショートカットを使うには、2つの権限が必要です。
マイクの許可
システム設定 → プライバシーとセキュリティ → マイク → Whisperingをオンにする
アクセシビリティの許可
システム設定 → プライバシーとセキュリティ → アクセシビリティ → Whisperingをオンにする
アクセシビリティの権限がないと、他のアプリを使っているときにグローバルショートカットが反応しません。
Step 3:Groq APIキーを取得する
今回は、GroqのWhisper APIを使って音声を文字起こしします。Groqは無料枠で1日2,000リクエストまで使えるので、個人の音声入力用途では実質無制限に近い感覚で使えます。(2026/4/4にClaudeサブスクリプションがWhisperingのようなサードパーティツールでの利用不可になったため、今回はGroqを使ってみました。)
なお、Groqのほかにも複数のAPIキーが使用できます。
Groqの無料枠
| 項目 | 制限 |
|---|---|
| リクエスト数 | 2,000回 / 日 |
| 音声時間 | 7,200秒(2時間分)/ 時間 |
| クレジットカード | 不要 |
音声入力での通常の使い方であれば、1日2,000リクエストの上限に達することはほぼありません。
APIキーの取得手順
- console.groq.com にアクセス
- メールアドレスまたはGoogleアカウントでサインアップ
- 右上メニューの 「API Keys」 をクリック
- 「Create API Key」 をクリックして名前をつけて作成
- 表示されたキー(
gsk_から始まる文字列)をコピーする
⚠️ APIキーはこのタイミングでしか表示されません。必ずコピーしてください。
Step 4:WhisperingにAPIキーを設定する
- Whisperingを起動
- 設定画面を開く(右上の歯車アイコン)
- メニューの 「API Keys」 をクリック
- 「Groq API Key」 の欄に、コピーしたAPIキーをペースト
Step 5:FFmpegをインストールする
FFmpegをインストールすると以下の2つのメリットがあります。
- 録音した音声をGroqに送る前に自動で圧縮するため、アップロードが速くなる
- Recording MethodをFFmpegに変更することで、ショートカット後の録音開始ラグが体感的に減る
Homebrewが入っている場合は、ターミナルで以下を実行するだけです。
brew install ffmpeg
インストール後、Settings → 「Recording」 → 「Recording Method」 を 「FFmpeg」 に変更してください。
⚠️ Recording Device が正しいマイクになっているか確認してください。カメラが選択されていると録音エラーになります。
Step 6:Transcription ServiceをGroqに変更する
デフォルトではローカルモデル(Moonshine)が選択されているので、Groqに切り替えます。
- 左メニューの 「Transcription」 をクリック
- 「Transcription Service」 のドロップダウンをクリック
- 「Groq」 を選択
- モデルは
whisper-large-v3-turboを選択(速くて精度も高くおすすめ) - 「Output Language」 を 「Japanese」 に設定する
-
「Compress audio before transcription」 をオンにする(FFmpegインストール済みの場合)
- Compression Presetsは 「recommended」 のままでOK
- Custom FFmpeg flagsもデフォルトのまま変更不要
Step 7:ショートカットキーを確認・設定する
注意:ショートカットが効かない場合
デフォルトのショートカット Cmd + Shift + ; が効かない場合は、英語配列キーボードやKarabiner-Elementsなどのキーカスタマイズツールとの競合が原因の可能性があります。
設定画面の 「Shortcuts」→「Global Shortcuts」 から別のキーに変更してください。
例:Command + Shift + S など他のアプリと被らないキーがおすすめです。
ショートカットの種類
| ショートカット | 動作 |
|---|---|
| Toggle recording | 1回押して録音開始、もう1回押して停止・文字起こし |
| Push to talk | 押している間だけ録音、離したら文字起こし |
個人的には、入力中かどうか分かりやすい Push to talk がおすすめです。(好みです)
Step 8:フィラー除去を設定する(オプション)
「えーと」「あの」「なんか」などのフィラーワードが文字起こし結果に含まれてしまう場合、Transformations機能を使って自動で除去できます。
Transformationの作成手順
- 左メニューの 「Transformations」(スタックアイコン)をクリック
- 「Create Transformation」 をクリック
- 以下の内容を入力する
Title:
フィラー除去
Description:
えーと、あの、えー、まあ などのフィラーを除去する
Processing Steps:
「Add your first processing step」をクリックして 「Prompt Transform」 を選択し、以下を設定します。
-
Provider:
Groq -
Model:
llama-3.3-70b-versatile
System Prompt Template:
あなたは日本語テキストの編集アシスタントです。フィラーワードを除去してください。
User Prompt Template:
以下の文字起こしテキストから「えーと」「あの」「えー」「まあ」「なんか」「そのー」などのフィラーワードを除去して、自然な日本語に整えてください。意味や内容は変えないでください。
{{input}}
{{input}}の部分に文字起こし結果が自動で挿入されます。
動作確認
右側の 「Test Transformation」 にフィラー入りのテキストを貼り付けて 「Run Transformation」 を押すと、除去後のテキストが確認できます。
使い方
※事前にWhisperingアプリを起動しておいてください。
- 任意のアプリでテキスト入力欄にカーソルを置く
- ショートカットキーを押す(録音開始音が鳴る)
- 音が鳴ってから話し始める
- 話し終わったらキーを離す(Push to talkの場合)
- 文字起こし結果が自動でペーストされる
録音中かどうかはヘッダーのマイクマークから確認できます。
Groqの使用状況を確認する
console.groq.com の Activity タブで、リクエスト数と処理した音声の秒数を確認できます。無料枠の消費状況の目安にしてください。
保存された音声を確認する
Whisperingでは、自動で音声が保存され左のメニューバーのRecordingsから確認できます。
まとめ
FFmpegを設定しない場合は録音開始まで体感2〜3秒程度のラグがありますが、FFmpegを設定するとほとんどラグなく使用できます。無料でここまで快適に使えるので十分かなと思います。
また、文字起こし結果が自動でクリップボードに保存されるので、ペーストし忘れてもあとからすぐ貼り直せるのが地味に便利です。
Transformationsのフィラー除去を設定しておくと、話し言葉のクセが出やすい人でもそのまま使えるのでおすすめです。
音声入力を使いこなすと、タイピングの手間が大幅に減ります。有料サービスの無料枠が切れて次どうしようか迷っている方は、ぜひ試してみてください!








