はじめに
Nvidiaが kyutai/moshiko-pytorch-bf16 をファインチューニングし、新たなAudio-to-Audioモデル nvidia/personaplex-7b-v1 を公開しました。
このモデルはリアルタイム対話が可能な高い精度を誇り、公開当初から大きな話題となりました。しかし、完全なGPUオフロード動作には最低でも24GBのVRAMが推奨されており、ハードルの高さが課題でした。
そこで、一般消費者向けのPCでも動作させる方法を調査したところ、Codes4Fun/personaplex-7b-v1-q4_k-GGUF というQ4_k_m量子化モデルがコミュニティによって公開されていることが分かりました。このモデルは約6GBまで軽量化されており、ミドルレンジのGPUでも十分に動作可能です。
本記事では、Ubuntu版とWindows版の環境構築と実行方法のみを解説します。
(検証はWindows環境で行っています)
元モデル: kyutai/moshiko-pytorch-bf16
Nvidiaのモデル: nvidia/personaplex-7b-v1
今回扱うモデル: Codes4Fun/personaplex-7b-v1-q4_k-GGUF
前提
今回記事で使ったPCの構成
- OS: Windows 11
- CPU: Ryzen 7 5700X
- RAM: DDR4-3200 96GB
- GPU: RTX 5060 Ti 16GB
今回はビルド済みのファイルを使います。
使用方法
今回はv0.7.0-betaを例に説明します
Ubuntuでの環境構築と実行方法
1: 依存ライブラリのインストール
sudo apt install aria2 libsdl2-2.0-0
2: 実行ファイルの準備
ビルド済みバイナリをダウンロード・解凍します。
wget https://github.com/Codes4Fun/moshi.cpp/releases/download/v0.7.0-beta/moshi-bin-linux-x64-v0.7.0-beta.tar.xz
tar -xf moshi-bin-linux-x64-v0.7.0-beta.tar.xz
cd moshi-bin-linux-x64-v0.7.0-beta
3: モデルのダウンロード
aria2cを使用して量子化モデルを取得します。
aria2c --disable-ipv6 -i Codes4Fun_personaplex-7b-v1-q4_k-GGUF.txt
4: モデルの起動
ダウンロードしたモデルを指定して起動します。
./moshi-sts -m Codes4Fun/personaplex-7b-v1-q4_k-GGUF -c 2000
起動時にモデルが挨拶を行います。音声が聞こえれば起動成功です。
Windowsでの環境構築と実行方法
以下のリンクから最新のファイルをビルド済みファイルをダウンロードしてください。
ダウンロード先: Codes4Fun/moshi.cpp
ダウンロードしたファイルを解凍してフォルダをコマンドで開きます
1: モデルのダウンロード
aria2cを使用して量子化モデルを取得します。
./aria2c --disable-ipv6 -i Codes4Fun_personaplex-7b-v1-q4_k-GGUF.txt
2: モデルの起動
ダウンロードしたモデルを指定して起動します。
./moshi-sts -m Codes4Fun/personaplex-7b-v1-q4_k-GGUF -c 2000
起動時にモデルが挨拶を行います。音声が聞こえれば起動成功です。
使用感
音声はとても高品質で遅延もほとんどなく、まるで電話で話しているような自然な対話感です。
現時点では英語のみの対応であり、私自身も英語が得意ではないため詳細な対話性能までは検証しきれませんでした。
最後に
コンシューマ向けGPUでオリジナルの nvidia/personaplex-7b-v1 を動作させるのはVRAM容量的に厳しいのが現状です。
BlackwellではNVFP4に最適化されているため、今後は公式からNVFP4対応モデルなどがリリースされ、より効率的に動作できるようになることを期待したいですね。
最後までお読みいただきありがとうございました!