アウトライン
前回記事
はじめに
会話型 AI エージェント – あなたの声を行動に変える
2025 年現在、音声入力ツールは急成長中です。代表例は Super Whisper と Aqua Voice。本記事では、まずこの 2 サービスを俯瞰します。
両者は 音声 → テキスト で終わりません。文字起こし直後に LLM が要約・翻訳・体裁調整 を自動実行します。入力から文章加工までがワンストップです。
続いて、今回リリースした Open Super Whisper V2 を紹介します。V2では OpenAI Agents SDK を採用。それに伴い、MCP (Model Context Protocol)に対応。声だけで 様々なツールを持つ AI エージェント を操れる新体験を実現しました。
1. Super Whisper & Aqua Voice
紹介動画
Introduce "Super Whisper" by KEITO
Introduce "Aqua Voice" by taishiyade
共通ポイント
- 音声→テキスト→LLM 文章加工 を一気通貫で提供
- アプリ・クリップボードから文脈を取得し、出力を自動フォーマット
- “キーボードレス”なワークスタイルを実現
サブスク費用
項目 | Super Whisper | Aqua Voice |
---|---|---|
Pro 料金 | $8.49 / 月 | $10 / 月 |
2. Open Super Whisper V2
2.1 コンセプト
「あなたの声を行動に変える」
- エージェント処理: AI エージェントは、単純な文章加工に留まらず、複雑なタスクを実行
- MCP 連携: Playwright などの外部ツールをエージェントに組み込み可能
2.2 4 ステップ処理フロー
🎤 音声入力 → 📝 文字起こし → 🤖 エージェント処理 → 📋 結果出力
- 🎙️ 音声入力 – グローバルホットキーで即録音開始
- 📝 文字起こし – OpenAI の Speech to text API を利用した文字起こし
- 🤖 エージェント処理 – OpenAI の Agents SDK を利用した要約・検索・画像解析などを実行
- 📋 結果出力 – Markdown で整形し、自動クリップボード保存
2.3 活用例
Open Super Whisper V2 には サンプルとして 6 つのエージェントが初期設定済
ホットキー | 初期タスク例 | 活用シーン |
---|---|---|
Ctrl ⇧ 1 | 文字起こし | 会議・講義・ボイスメモを即テキスト化 |
Ctrl ⇧ 2 | 文書作成 | "○○についてフォーマルなメールを書いて" → 体裁済メール草稿を生成 |
Ctrl ⇧ 3 | 検索キーワード生成 | 長い質問を要約し、最適な Web 検索ワードを抽出 |
Ctrl ⇧ 4 | テキスト Q&A | クリップボードの文章を読み取り、要約+質問回答 |
Ctrl ⇧ 5 | 画像 Q&A | クリップボード画像を解析し、内容説明や洞察を提示 |
Ctrl ⇧ 6 | Web オートメーション | Playwright MCPでサイト巡回・データ収集・フォーム記入などを自動実行 |
📝 活用例 1:テキスト Q&A エージェント(ctrl+shift+4)でメール返信作成
- シーン:受信したメールに対する返信の下書きを作成したい
-
操作:
- 返信したいメールの本文をコピーしてクリップボードに保存
- ホットキー
ctrl+shift+4
を押す - 「このメールに対して、会議日程の調整に応じる旨の丁寧な返信を作成して」と話す
- 再度ホットキーを押す
-
結果:
- 元のメール内容を踏まえた適切な返信文が生成
- 自動的にクリップボードにコピー(設定による)
- 活用:メールアプリに貼り付けて、必要に応じて微調整後に送信
🔍 活用例 2:画像 Q&A エージェント(ctrl+shift+5)でグラフ分析
- シーン:図や表を分析したい
-
操作:
- 分析したいグラフやチャートをスクリーンショットしてクリップボードにコピー
- ホットキー
ctrl+shift+5
を押す - 「この売上グラフの傾向を分析して、来月の販売戦略を提案して」と話す
- 再度ホットキーを押す
-
結果:
- 画像内容を AI が解析
- グラフデータに基づいた詳細な分析レポートと具体的な提案が生成
- 活用:プレゼンテーション資料や戦略会議での意思決定に活用
🌐 活用例 3:Web 自動操作エージェント(ctrl+shift+6)で情報収集
- シーン:競合他社の最新情報を自動収集したい
-
操作:
- ホットキー
ctrl+shift+6
を押す - 「AI 業界の最新ニュースを検索して、今週の重要なトピックを 3 つ選んで要約して」と話す
- 再度ホットキーを押す
- ホットキー
-
結果:
- Playwright が自動的に複数の Web サイトを巡回
- 最新ニュースを収集・解析
- 重要度順にランキングした要約レポートを生成
- 活用:週次レポートや市場動向分析として業務に活用
2.4 OpenAI API・SDK の利用
Open Super Whisper V2 は、OpenAI Speech to text API, Agents SDK を活用
(1) Speech to text API
利用可能な STT モデルの一覧とその概要
モデル | 特徴 |
---|---|
gpt-4o-transcribe |
最新の文字起こしモデル。最も高精度 |
gpt-4o-transcribe-mini |
軽量版。リアルタイム用途向き |
whisper-1 |
従来の文字起こしモデル |
(2) Agents SDK
利用可能な LLM モデルの一覧とその概要
※ Anthropic, Geminiには、LiteLLM経由で接続
モデル | プロバイダー | 代表的な用途 |
---|---|---|
gpt-4.1 |
OpenAI | 専門的なコーディングモデル。精度と実用性のバランスが良い |
gpt-4o |
OpenAI | マルチモーダル対応。音声・画像・テキストを扱える汎用モデル |
o3 |
OpenAI | 最新の推論モデル。複雑な問題解決やコーディングに最適 |
o1 |
OpenAI | 思考連鎖型推論モデル。研究・戦略立案・数学・科学に強い |
claude-opus-4 |
Anthropic | 世界最高峰のコーディングモデル。長時間の複雑な作業に対応 |
claude-sonnet-4 |
Anthropic | コスパ重視の高性能モデル。指示への追従性が高い |
gemini-2.5-pro |
Gemini | Deep Think搭載の高度推論モデル。数学とコーディングに優れる |
gemini-2.5-flash |
Gemini | 価格性能比No.1。トークン効率が良く調整可能な推論機能付き |
2.5 インストール & 使い方
- 最新リリースをダウンロード
- 立ち上げて、OpenAI API キーを設定
- 録音 → AIエージェントが動く!
詳細は マニュアル を参照
まとめ
- Super Whisper / Aqua Voice が示すとおり、音声入力は LLM 連携で“文章加工”まで自動化 するフェーズへ
- Open Super Whisper V2 は エージェント処理まで自動化することで音声を行動に変換 でき、MCP連携によりツールの拡張性も◎
会話型 AI エージェントであなたの声を行動に変える—そんな未来を体験しませんか?
リンク集
- Super Whisper:
- KEITOチャンネルの Super Whisper 紹介動画:
- Aqua Voice:
- taishiyadeチャンネルの Aqua Voice 紹介動画:
- MCP 仕様:
- MCP 公式サーバー集:
- Awesome MCP Servers:
- Playwright MCP:
- OpenAI Agents SDK:
- LiteLLM - OpenAI Agents SDK:
- OpenAI Speech-to-Text API:
- Open Super Whisper V2:
- マニュアル - Open Super Whisper V2:
- README - Open Super Whisper V2:
- リリース - Open Super Whisper V2: