@hmkc1220(Takanari Shimbo)

【MCP対応】声でAIエージェントを動かすアプリを作ったんだなも

Last updated at 2025-06-20Posted at 2025-06-16

アウトライン

前回記事
はじめに
1. Super Whisper & Aqua Voice
2. Open Super Whisper V2
まとめ
リンク集

前回記事

はじめに

会話型 AI エージェント – あなたの声を行動に変える

2025 年現在、音声入力ツールは急成長中です。代表例は Super Whisper と Aqua Voice。本記事では、まずこの 2 サービスを俯瞰します。

両者は 音声 → テキスト で終わりません。文字起こし直後に LLM が要約・翻訳・体裁調整 を自動実行し、入力から文章加工までをワンストップで完結させます。

続いて、今回リリースした Open Super Whisper V2 を紹介します。V2 では OpenAI Agents SDK を採用し、MCP (Model Context Protocol) に対応。声だけで様々なツールを持つ AI エージェントを操れる 新体験を実現しました。

1. Super Whisper & Aqua Voice

紹介動画

Super Whisper by KEITO（YouTube リンク）

Aqua Voice by taishiyade（YouTube リンク）

共通ポイント

音声→テキスト→LLM 文章加工 を一気通貫で提供
アプリ・クリップボードから文脈を取得し、出力を自動フォーマット
“キーボードレス”なワークスタイルを実現

サブスク費用

項目	Super Whisper	Aqua Voice
Pro 料金	$8.49 / 月	$10 / 月

2. Open Super Whisper V2

2.1 コンセプト

「あなたの声を行動に変える」

エージェント処理 — AI エージェントは、単純な文章加工に留まらず複雑なタスクを実行
MCP 連携 — Playwright MCP などの外部ツールをエージェントに組み込み可能

💡MCP サーバーを探す

以下のリストから、Playwright MCP をはじめとするMCPサーバーを素早く発見できます。

公式サーバー集 — https://github.com/modelcontextprotocol/servers
Awesome MCP Servers — https://github.com/punkpeye/awesome-mcp-servers

2.2 4 ステップ処理フロー

🎤 音声入力 → 📝 文字起こし → 🤖 エージェント処理 → 📋 結果出力

🎙️ 音声入力 — グローバルホットキーで即録音開始
📝 文字起こし — OpenAI Speech‑to‑Text API を利用
🤖 エージェント処理 — OpenAI Agents SDK で要約・検索・画像解析などを実行
📋 結果出力 — Markdown で整形し、自動クリップボード保存

2.3 活用例

Open Super Whisper V2 にはサンプルとして 6 つのエージェントが初期設定済みです。

ホットキー	初期タスク例	活用シーン
Ctrl Alt 1	文字起こし	会議・講義・ボイスメモを即テキスト化
Ctrl Alt 2	文書作成	「○○についてフォーマルなメールを書いて」→ 体裁済メール草稿を生成
Ctrl Alt 3	検索キーワード生成	長い質問を要約し、最適な Web 検索ワードを抽出
Ctrl Alt 4	テキスト Q&A	クリップボードの文章を読み取り、要約＋質問回答
Ctrl Alt 5	画像 Q&A	クリップボード画像を解析し、内容説明や洞察を提示
Ctrl Alt 6	Web オートメーション	Playwright MCP でサイト巡回・データ収集・フォーム記入などを自動実行

📝 活用例 1：テキスト Q&A エージェント（Ctrl Alt 4）でメール返信作成

シーン：受信メールに対する返信の下書きを作成したい
操作：
- 返信したいメール本文をコピーしクリップボードに保存
- ホットキー Ctrl Alt 4 を押す
- 「このメールに対して、会議日程の調整に応じる旨の丁寧な返信を作成して」と話す
- 再度ホットキーを押す
結果：元メール内容を踏まえた適切な返信文が生成され、クリップボードに自動コピー（設定による）
活用：メールアプリに貼り付けて微調整後に送信

🔍 活用例 2：画像 Q&A エージェント（Ctrl Alt 5）でグラフ分析

シーン：図や表を分析したい
操作：
- グラフをスクリーンショットしクリップボードに保存
- ホットキー Ctrl Alt 5 を押す
- 「この売上グラフの傾向を分析して、来月の販売戦略を提案して」と話す
- 再度ホットキーを押す
結果：画像内容を AI が解析し、分析レポートと具体的提案を生成
活用：プレゼン資料や戦略会議での意思決定に活用

🌐 活用例 3：Web 自動操作エージェント（Ctrl Alt 6）で情報収集

シーン：競合他社の最新情報を自動収集したい
操作：
- ホットキー Ctrl Alt 6 を押す
- 「AI 業界の最新ニュースを検索して、今週の重要なトピックを 3 つ選んで要約して」と話す
- 再度ホットキーを押す
結果：Playwright MCP が複数サイトを巡回しニュースを収集・解析、重要度順にランキングした要約レポートを生成
活用：週次レポートや市場動向分析として業務に活用

2.4 OpenAI API・SDK

Open Super Whisper V2 は、文字起こしのために OpenAI Speech‑to‑Text API, エージェント処理のために OpenAI Agents SDK を利用
※ Anthropic と Gemini は LiteLLM 経由で接続

(1) Speech‑to‑Text API

モデル	特徴
`gpt-4o-transcribe`	最新の文字起こしモデル。最も高精度
`gpt-4o-transcribe-mini`	軽量版。リアルタイム用途向き
`whisper-1`	従来の文字起こしモデル

(2) Agents SDK

モデル	プロバイダー	代表的な用途
`gpt-4.1`	OpenAI	専門的なコーディングモデル。精度と実用性のバランスが良い
`gpt-4o`	OpenAI	マルチモーダル対応。音声・画像・テキストを扱える汎用モデル
`o3`	OpenAI	最新の推論モデル。複雑な問題解決やコーディングに最適
`o1`	OpenAI	思考連鎖型推論モデル。研究・戦略立案・数学・科学に強い
`claude-opus-4`	Anthropic	世界最高峰のコーディングモデル。長時間の複雑な作業に対応
`claude-sonnet-4`	Anthropic	コスパ重視の高性能モデル。指示への追従性が高い
`gemini-2.5-pro`	Gemini	Deep Think 搭載の高度推論モデル。数学とコーディングに優れる
`gemini-2.5-flash`	Gemini	価格性能比 No.1。トークン効率が良く調整可能な推論機能付き

2.5 インストール & 使い方

最新リリースをダウンロード
アプリを起動し OpenAI API キーを設定
録音 → AI エージェントを操る！

詳しくは マニュアル を参照してください。

まとめ

Super Whisper / Aqua Voice が示すとおり、音声入力は LLM 連携で“文章加工”まで自動化 するフェーズへ
Open Super Whisper V2 は エージェント処理まで自動化することで音声を行動に変換 でき、MCP 連携 によりツールの拡張性も◎

会話型 AI エージェントであなたの声を行動に変える—そんな未来を体験しませんか？

リンク集

Super Whisper:

KEITOチャンネルの Super Whisper 紹介動画:

Aqua Voice:

taishiyadeチャンネルの Aqua Voice 紹介動画:

MCP 仕様:

MCP 公式サーバー集:

Awesome MCP Servers:

Playwright MCP:

OpenAI Agents SDK:

LiteLLM - OpenAI Agents SDK:

OpenAI Speech-to-Text API:

Open Super Whisper V2:

リポジトリ

マニュアル

リリース

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up