1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

音声入力でAIエージェントを動かすアプリを作ったんだなも

Last updated at Posted at 2025-06-16

アウトライン

前回記事

はじめに

会話型 AI エージェント – あなたの声を行動に変える

2025 年現在、音声入力ツールは急成長中です。代表例は Super WhisperAqua Voice。本記事では、まずこの 2 サービスを俯瞰します。

両者は 音声 → テキスト で終わりません。文字起こし直後に LLM が要約・翻訳・体裁調整 を自動実行します。入力から文章加工までがワンストップです。

続いて、今回リリースした Open Super Whisper V2 を紹介します。V2では OpenAI Agents SDK を採用。それに伴い、MCP (Model Context Protocol)に対応。声だけで 様々なツールを持つ AI エージェント を操れる新体験を実現しました。

1. Super Whisper & Aqua Voice

紹介動画

Introduce "Super Whisper" by KEITO

Introduce "Aqua Voice" by taishiyade

共通ポイント

  • 音声→テキスト→LLM 文章加工 を一気通貫で提供
  • アプリ・クリップボードから文脈を取得し、出力を自動フォーマット
  • “キーボードレス”なワークスタイルを実現

サブスク費用

項目 Super Whisper Aqua Voice
Pro 料金 $8.49 / 月 $10 / 月

2. Open Super Whisper V2

demo.gif

2.1 コンセプト

「あなたの声を行動に変える」

  • エージェント処理: AI エージェントは、単純な文章加工に留まらず、複雑なタスクを実行
  • MCP 連携: Playwright などの外部ツールをエージェントに組み込み可能

2.2 4 ステップ処理フロー

🎤 音声入力 → 📝 文字起こし → 🤖 エージェント処理 → 📋 結果出力
  1. 🎙️ 音声入力 – グローバルホットキーで即録音開始
  2. 📝 文字起こし – OpenAI の Speech to text API を利用した文字起こし
  3. 🤖 エージェント処理 – OpenAI の Agents SDK を利用した要約・検索・画像解析などを実行
  4. 📋 結果出力 – Markdown で整形し、自動クリップボード保存

2.3 活用例

Open Super Whisper V2 には サンプルとして 6 つのエージェントが初期設定済

ホットキー 初期タスク例 活用シーン
Ctrl ⇧ 1 文字起こし 会議・講義・ボイスメモを即テキスト化
Ctrl ⇧ 2 文書作成 "○○についてフォーマルなメールを書いて" → 体裁済メール草稿を生成
Ctrl ⇧ 3 検索キーワード生成 長い質問を要約し、最適な Web 検索ワードを抽出
Ctrl ⇧ 4 テキスト Q&A クリップボードの文章を読み取り、要約+質問回答
Ctrl ⇧ 5 画像 Q&A クリップボード画像を解析し、内容説明や洞察を提示
Ctrl ⇧ 6 Web オートメーション Playwright MCPでサイト巡回・データ収集・フォーム記入などを自動実行

📝 活用例 1:テキスト Q&A エージェント(ctrl+shift+4)でメール返信作成

メール返信作成

  1. シーン:受信したメールに対する返信の下書きを作成したい
  2. 操作
    • 返信したいメールの本文をコピーしてクリップボードに保存
    • ホットキー ctrl+shift+4 を押す
    • 「このメールに対して、会議日程の調整に応じる旨の丁寧な返信を作成して」と話す
    • 再度ホットキーを押す
  3. 結果
    • 元のメール内容を踏まえた適切な返信文が生成
    • 自動的にクリップボードにコピー(設定による)
  4. 活用:メールアプリに貼り付けて、必要に応じて微調整後に送信

🔍 活用例 2:画像 Q&A エージェント(ctrl+shift+5)でグラフ分析

グラフ分析

  1. シーン:図や表を分析したい
  2. 操作
    • 分析したいグラフやチャートをスクリーンショットしてクリップボードにコピー
    • ホットキー ctrl+shift+5 を押す
    • 「この売上グラフの傾向を分析して、来月の販売戦略を提案して」と話す
    • 再度ホットキーを押す
  3. 結果
    • 画像内容を AI が解析
    • グラフデータに基づいた詳細な分析レポートと具体的な提案が生成
  4. 活用:プレゼンテーション資料や戦略会議での意思決定に活用

🌐 活用例 3:Web 自動操作エージェント(ctrl+shift+6)で情報収集

情報収集

  1. シーン:競合他社の最新情報を自動収集したい
  2. 操作
    • ホットキー ctrl+shift+6 を押す
    • 「AI 業界の最新ニュースを検索して、今週の重要なトピックを 3 つ選んで要約して」と話す
    • 再度ホットキーを押す
  3. 結果
    • Playwright が自動的に複数の Web サイトを巡回
    • 最新ニュースを収集・解析
    • 重要度順にランキングした要約レポートを生成
  4. 活用:週次レポートや市場動向分析として業務に活用

2.4 OpenAI API・SDK の利用

Open Super Whisper V2 は、OpenAI Speech to text API, Agents SDK を活用

(1) Speech to text API

利用可能な STT モデルの一覧とその概要

モデル 特徴
gpt-4o-transcribe 最新の文字起こしモデル。最も高精度
gpt-4o-transcribe-mini 軽量版。リアルタイム用途向き
whisper-1 従来の文字起こしモデル

(2) Agents SDK

利用可能な LLM モデルの一覧とその概要
※ Anthropic, Geminiには、LiteLLM経由で接続

モデル プロバイダー 代表的な用途
gpt-4.1 OpenAI 専門的なコーディングモデル。精度と実用性のバランスが良い
gpt-4o OpenAI マルチモーダル対応。音声・画像・テキストを扱える汎用モデル
o3 OpenAI 最新の推論モデル。複雑な問題解決やコーディングに最適
o1 OpenAI 思考連鎖型推論モデル。研究・戦略立案・数学・科学に強い
claude-opus-4 Anthropic 世界最高峰のコーディングモデル。長時間の複雑な作業に対応
claude-sonnet-4 Anthropic コスパ重視の高性能モデル。指示への追従性が高い
gemini-2.5-pro Gemini Deep Think搭載の高度推論モデル。数学とコーディングに優れる
gemini-2.5-flash Gemini 価格性能比No.1。トークン効率が良く調整可能な推論機能付き

2.5 インストール & 使い方

  1. 最新リリースをダウンロード
  2. 立ち上げて、OpenAI API キーを設定
  3. 録音 → AIエージェントが動く!

詳細は マニュアル を参照

まとめ

  • Super Whisper / Aqua Voice が示すとおり、音声入力は LLM 連携で“文章加工”まで自動化 するフェーズへ
  • Open Super Whisper V2エージェント処理まで自動化することで音声を行動に変換 でき、MCP連携によりツールの拡張性も◎

会話型 AI エージェントであなたの声を行動に変える—そんな未来を体験しませんか?

リンク集

  • Super Whisper:

  • KEITOチャンネルの Super Whisper 紹介動画:

  • Aqua Voice:

  • taishiyadeチャンネルの Aqua Voice 紹介動画:

  • MCP 仕様:

  • MCP 公式サーバー集:

  • Awesome MCP Servers:

  • Playwright MCP:

  • OpenAI Agents SDK:

  • LiteLLM - OpenAI Agents SDK:

  • OpenAI Speech-to-Text API:

  • Open Super Whisper V2:

  • マニュアル - Open Super Whisper V2:

  • README - Open Super Whisper V2:

  • リリース - Open Super Whisper V2:

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?