はじめに
ローカルLLMでAITuberを動かせるOpen-LLM-VTuberは、日本語環境への最適化が活発に進められている注目のプロジェクトです。
本記事では、特にWindows + NVIDIA GPU環境において、 Qwen3 を脳として使いつつ、「MeloTTS(日本語音声合成)」を安定動作させるまでの手順と、環境構築でハマりやすいポイントを共有します。
動作環境
- OS: Windows 10 / 11
- GPU: NVIDIA GeForce RTX 3060以上推奨
- VRAM: 8GB以上必須(12GB以上あると非常に快適です)
- LLM: Ollama (qwen3:8b)
1. リポジトリのクローン
公式リポジトリをクローンします。
git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber.git
cd Open-LLM-VTuber
以降の手順はすべてこのディレクトリ内で進めます。
2. Pythonバージョンの固定(3.13の回避)
最新の Python 3.13 では依存パッケージのコンパイルが通らないエラーが発生するため、必ず Python 3.10.x を使用して仮想環境を構築してください。
py -3.10 -m venv venv
.\venv\Scripts\activate
※実行後、ターミナルの行頭に (venv) と表示されることを確認します。
3. requirements.txt の競合修正
sherpa-onnx のバージョン指定によりインストールが失敗するのを防ぐため、事前にファイルを修正します。
修正前: sherpa-onnx == 1.12.15
修正後: sherpa-onnx >= 1.12.15
4. 日本語音声(MeloTTS)の安定化
公式手順に加え、日本語辞書のダウンロードを忘れないようにしてください。
pip install websockets pyaudio git+https://github.com/myshell-ai/MeloTTS.git
# 日本語辞書(unidic)のダウンロード(必須)
python -m unidic download
5. conf.yaml の設定(Ollama + Qwen3)
最新の qwen3:8b を指定します。
llm_configs:
ollama_llm:
model: 'qwen3:8b' # Ollamaで pull 済みの最新モデルを指定
6. 起動とトラブルシューティング
python run_server.py
よくあるエラーと対策
Error code: 404 - model not found
-
ollama listを実行し、モデル名が正確か確認してください。
VRAM不足(動作がカクつく)
- RTX 3060(12GB)や RTX 3080(10GB)を使用している場合、 7B~8B(70億~80億パラメータ)クラス のモデル(例:
qwen3:8b)が、音声合成やLive2Dの負荷を考慮した際におすすめです。
これ以上のサイズ(例:32B以上)はVRAMを圧迫し、回答速度が大幅に低下するため注意が必要です。
まとめ
本記事では 「公式リポジトリの活用」 、「Python 3.10の維持」、そして 「Qwen3モデルの適用」 という構成を紹介しましたが、これはあくまで一例です。Open-LLM-VTuberは柔軟性が高く、他のLLMモデルでも問題なく動作します。
特にQwen3シリーズは2025年4月のリリース以降、日本語環境において高い評価を得ており、2026年現在も主流のモデルの一つとして活躍しています。ただし、プロジェクトの進化とともに、より優れたモデルが登場する可能性もあります。
ぜひ、あなたの環境に合わせて最適な構成を見つけ、自分だけのAITuberを育ててみてください!
特にQwen3シリーズは、日本語環境において高い評価を得ており、2026年現在も主流のモデルとして活躍しています。