n8n + Open AI TTSで読み上げ音声ファイル作成

Posted at 2025-11-11

概要

文字情報の音声読み上げファイルをワークフローで作成します。

今回はワークフローツールとしてn8n、読み上げのAPIとしてOpenAI Text to Speech(TTS) を使用しています。
n8nから提供されているノードだけで完結しており、HTTP Requestノードでの API 直リクエストは一切使っていません。

GUI 上でノードを数個つなぐだけで「テキスト → 音声（MP3）」のフローを構築でき、とても簡単！

OpenAI（Message a model）→ OpenAI（Generate Audio）

構成図

下記のような入力から読み上げファイルを出力

▼ Input

あなたはラジオDJです
ピラミッドについて解説してください

ラジオ原稿となる部分だけ返却してください

▼ Output
mp3形式で読み上げファイルを生成

n8nのOpenAIノードにはAudio operationsが用意されており、その中のひとつが"Generate Audio"です。
このノードは、OpenAIのAudio API(Text to Speech)をラップしたもので、テキストを渡すだけで音声ファイルを生成してくれます。

▼ TTSについて

主な設定項目は次のとおりです。

n8nモデル欄に各モデル名を指定するだけで利用できます。
OpenAI TTSで利用できるモデルは次のとおりです。

出力された文章に対しての整形処理を簡単に行うことでき、定性情報の取り扱い方のハードルが格段に楽になったと実感します。
今後は日々の日常に応じた形で文言の情報を整形し、ワークフローに組み込んでいきたいです。