さくらのAI EngineとOpen WebUIでつくる音声付きAIチャット環境

Last updated at 2026-06-03Posted at 2026-06-02

さくらのクラウド（Ubuntu 24.04）上でDockerを使用し、Open WebUIを立ち上げて「さくらのAI Engine」のLLM（テキスト生成）および音声合成（TTS）を連携させる作業の備忘メモです。

さくらのAI Engine とは

オープンモデルや日本語特化モデルなどを厳選して提供する、生成AIアプリケーション構築のためのAPIサービスです。

高い互換性: OpenAIやAnthropicのAPIと互換性があるため、既存のツールや環境からスムーズに移行・連携できます。
高度なセキュリティ: 入力データはAIの学習に一切利用されず、すべての処理が日本国内のサーバーで完結するため、安全に活用できます。
公式サイト: さくらのAI Engine

Open WebUI とは

ChatGPTのような洗練されたチャット画面（UI）を、自分のサーバーやPC上にセルフホスト（自前で構築）できるオープンソースのWebアプリケーションです。
外部のさまざまなAI（API）と繋ぎ込んで、自分専用のAIチャット環境を作ることができます。テキストでの会話はもちろん、音声の入力・読み上げ、RAG（資料読み込み機能）など、豊富な機能が直感的な画面から利用できるのが魅力です。

公式サイト: Open WebUI

⚠️ 料金に関する注意
下記手順を進めるにあたり、さくらのクラウドのサーバー作成や、さくらのAI Engineでチャット利用すると利用料が発生します。サーバ作成に関する料金はさくらのクラウドの料金シミュレーションを利用することである程度見積もりできます。
個人利用や、クラウドのサーバー代を抑えたい場合は、DockerとOpenWebUIをローカルPCなで立ち上げることもできそうです。
AI Engineの料金はプランによって課金方法が異なりますので公式サイトを確認してください。

手順

1. サーバー作成

さくらのクラウドで以下の構成のサーバーを作成します。

プラン: 4コア / 8GBメモリ　（数人で作業、モデルいれないのであれば、2コア/4GBメモリでもいけそう）
OS: Ubuntu Server 24.04.x LTS 64bit

2. Dockerのインストール

SSHログイン & パッケージ更新

作成したサーバーに ubuntu ユーザーでログインします。

ssh ubuntu@【サーバーのIPアドレス】

Dockerの自動インストール

Docker公式スクリプトをダウンロードして実行します。このスクリプト内部で必要な apt update なども自動的に処理されます。

# スクリプトのダウンロードと実行
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh

一般ユーザー権限の自動設定

sudo なしで docker コマンドを使えるように、現在のログインユーザー（ubuntu）を docker グループに追加して設定を即時反映させます。

# dockerグループを作成（通常は自動で作られていますが念のため）
sudo groupadd -f docker

# 現在のログインユーザー（$USER）をdockerグループに追加
sudo usermod -aG docker $USER

# 現在のシェルセッションにグループ変更を即時反映（ログアウトを省略）
newgrp docker

動作確認

正しくインストールされたか確認します。すべて sudo なしで実行できれば成功です。

# Dockerのバージョン確認
docker version

# Docker Composeのバージョン確認
docker compose version

# テスト用コンテナの実行（"Hello from Docker!" が表示されたらOK）
docker run hello-world

3. Open WebUIの起動

Dockerのインストールが完了したら、そのまま以下のコマンドを実行してOpen WebUIを起動します。

docker run -d -p 3000:8080 \
  -e OPENAI_API_BASE_URL="https://api.ai.sakura.ad.jp/v1" \
  -e OPENAI_API_KEY="【さくらのAI Engineのアカウントトークン】" \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

💡 さくらのAI Engineのアカウントトークンの取得方法
さくらのAI Engineを起動し、サイドメニューの「アカウントトークン」から新規作成します。作成時に一度だけ表示されるトークンをコピーして、上記の 【さくらのAI Engineのアカウントトークン】 の部分に貼り付けてください。

4. ブラウザでアクセス

コンテナの起動が完了したら、ブラウザのURL欄に以下を入力するとOpen WebUIの画面が開きます。

http://【さくらのクラウドのIPアドレス】:3000

初期設定

初めてアクセスするとアカウント作成画面が出ます。
1人目に登録したアカウントが自動的に「管理者アカウント」になります。
名前、メールアドレス、パスワードを設定してログインしてください。

ログインが完了すると下記画面が表示されます。

5. Open WebUIの操作と設定

モデルの選択

ログイン後、チャット画面上部のドロップダウンから、さくらのAI Engineで提供されているLLMモデル（gpt-oss-120b など）が選択できるようになります。

さくらのAI Engineの音声再生モデルを設定する

さくらのAI Engineが提供する音声合成モデルをOpen WebUIに紐付けます。

画面左下のアカウントアイコンをクリックします
「管理者パネル」 ➔ 「設定 (Settings)」（上部にある薄い灰色のタブ） ➔ 「オーディオ」 の順に開きます
「テキスト音声変換」 の各項目に設定内容を入力します

設定項目	入力内容
テキスト音声変換エンジン	`OpenAI`
API Base URL	`https://api.ai.sakura.ad.jp/v1`
API Key	さくらのAI Engineのアカウントトークン
TTSボイス	`normal` （※ドロップダウンの選択肢を無視してキーボードで直接手入力してEnter）
TTSモデル	`tohokuitako` （※ドロップダウンの選択肢を無視してキーボードで直接手入力してEnter）

🔍 TTSボイスとTTSモデルの確認方法
さくらのAI Engineコントロールパネル内にある「利用可能な音声モデル」を開くと、対応している「モデルID（例: tohokuitako）」と「ボイスID（例: normal）」の詳細が確認できます。お好みのキャラクターに合わせて書き換えてください。

入力が終わったら、必ず画面最下部の 「保存 (Save)」 ボタンを押して設定を確定させます。

6. 音声を再生する

チャット画面に戻り、さくらのモデルを選択してメッセージを送信します。
返ってきたAIの応答テキストの下部に スピーカーアイコン（音声を読み上げる） が表示されるので、それをクリックするとさくらのAI Engineを介した音声合成（東北イタコなどの声）で綺麗に読み上げが再生されます！

🔒 セキュリティに関する注意！
本手順では検証用として分かりやすさを優先しているため、通信が暗号化されていない「HTTP」のまま接続し、パケットフィルタ（ファイアウォール）の設定も省略しています。

この状態のままインターネット上に放置して運用するのはセキュリティ上とても危険です。

そのため、上記に加えて必要なセキュリティ対策を入れるか、手順の検証が終わったらすぐにサーバーを停止または削除することを強くお勧めします。

最後に

今回はさくらのクラウドとAI Engineを使って、完全に国内インフラだけで動く音声付きAI環境を構築してみました。
サーバー側に重いモデルを持たせない構成なので、さまざまなモデルを手軽に試せるのがこの組み合わせの最大のメリットだと感じています。

自分のみでの利用なら、手元のPCでOpen WebUI環境を作ったほうがコストは大幅におさえられると思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up