はじめに
speech フォルダに音声ファイルをアップロードするだけで、バックグラウンドで Watson Speech to Text(Watson STT)に投げて自動で書き起こしを行い、text フォルダにテキストを保存するパイプラインを作りました(いわゆる speech-to-text)。
README に概要やセットアップ手順をまとめてありますが、この記事では設計上の特長と AI エージェントと組み合わせる未来像について説明します。興味がありましたら、ぜひリポジトリを試してみてください。
機能概要を図でまとめました(※本文をもとにGoogle NotebookLMで作成)

アーキテクチャ図
設計上の特長
- Code Engine のサーバーレス構成で、未処理の音声があるときだけ起動します
- Box の Webhook をトリガーに、Code Engine の受付機能(
receiver)を起動するイベント駆動型の構成です - Watson Speech to Text の非同期書き起こしを利用し、長時間の音声に対応します
- 書き起こし結果は Box の
textフォルダに集約され、即利用可能です
AIエージェントと組み合わせる未来像
Boxが参照先として利用できることの利便性
AIエージェントがテキストを参照する方式として RAG(Retrieval-Augmented Generation)がありますが、ナレッジとして登録するほどではない一次情報を扱う場合には、Box フォルダ参照が便利になるケースがあります。
- Box参照:最新のテキスト情報をそのまま利用できる即時性があります
- RAG登録:横断検索や QA に強い知識基盤として利用できます
直近情報は Box、確定情報は RAG と使い分けるのが現実的であり、併用することでより多様なユースケースに対応できます。
適用例:電話応対記録と宿題事項への対応
- Box 上のテキスト:電話応対の音声書き起こしテキスト。応対記録に加え、要調査事項を含みます
- RAG 上の情報:契約書、業務規程、法令文書、お客様応対履歴 など
このような情報配置により、日常の応対とアフターコール作業がスムーズになります。さらに本記事で紹介している音声書き起こし自動化を組み合わせれば、音声ファイルを投入するだけで多くの作業を AI エージェントと生成 AI の能力でカバーできる未来像に近づけます。
おわりに
本記事では、Box に音声ファイルを配置するだけで自動的に書き起こしを行い、その結果を保存するパイプラインを紹介しました。個別の操作や手作業を必要とせず、音声ファイルを置くだけで試せる点が特徴です。
書き起こし結果を Box に集約することで、人が直接確認する用途だけでなく AI エージェントからの参照先としても扱いやすくなります。直近の情報は Box を参照し、確定した情報は RAG の知識基盤として登録する、といった使い分けを行うことで、より実用的なワークフローが構築できます。
今後はこの書き起こしパイプラインを watsonx Orchestrate と連携させ、要約や質問応答といった AI エージェントの効果を実際に体験できる形に発展させていきたいと考えています。
(本記事は、執筆にあたりOpenAI ChatGPTを利用し、その出力を参考にしています。)
