初めに
CohereLabs/cohere-transcribe-03-2026 を、vLLM を使ってローカルで動かしてみたときのメモです。
Hugging Face のモデルはこちらです。
今回は、uv でクリーンな Python 環境を作り、vLLM の OpenAI 互換 API で /v1/audio/transcriptions を試すところまでをまとめます。
このモデルについて
CohereLabs/cohere-transcribe-03-2026 は、音声の文字起こし用途で使えるモデルです。
本記事ではモデル自体の評価やベンチマークには踏み込まず、まずは ローカルで起動して API 経由で文字起こしを試す ことに集中します。
また、このモデルは Hugging Face 上でライセンス同意とログインが必要 です。
そのため、起動前に hf auth login を実行しておきます。
前提
今回は以下の方針で進めます。
-
uvでクリーンな仮想環境を作る - vLLM は nightly wheel を使う
- PyTorch は CUDA 12.8 向けの wheel に揃える
- OpenAI 互換 API で音声文字起こしを確認する
既存の
conda環境の影響を避けたいので、可能ならいったんconda deactivateしてから進めるのがおすすめです。
0. ローカル環境について
NVIDIA GeForce RTX 5080 Laptop を使用しています。
CUDAは13.2です。
nvidia-smiの出力結果は以下の通りです。
Sun Apr 5 11:17:15 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.54 Driver Version: 595.79 CUDA Version: 13.2 |
+-----------------------------------------+------------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+========================+======================|
| 0 NVIDIA GeForce RTX 5080 ... On | 00000000:C5:00.0 On | N/A |
| N/A 47C P5 22W / 160W | 15671MiB / 16303MiB | 28% Default |
| | | N/A |
+-----------------------------------------+------------------------+----------------------+
+-----------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=========================================================================================|
| 0 N/A N/A 1495 C /ollama N/A |
| 0 N/A N/A 2442 C /python3.12 N/A |
+-----------------------------------------------------------------------------------------+
1. uv をインストールする
curl -LsSf https://astral.sh/uv/install.sh | sh
source ~/.local/bin/env
2. 必要なら conda を抜ける
conda 環境の上でそのまま進めると、依存関係でハマることがあります。
不要なら抜けておきます。
conda deactivate
3. クリーンな仮想環境を作る
Python 3.12 の新しい環境を作成して有効化します。
uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate
4. vLLM を nightly でインストールする
まずは vLLM 本体を入れます。
続けて、音声系で必要になる extra と librosa も入れます。
uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
uv pip install -U "vllm[audio]" librosa
5. PyTorch を CUDA 12.8 版に揃える
ここが今回のポイントです。
クリーンな uv venv を作っているので、
わざわざ torch / torchvision / torchaudio を uninstall してから入れ直す必要はありません。
代わりに、--reinstall を使って CUDA 12.8 用の PyTorch 一式を上書きで揃える ほうがシンプルです。
uv pip install --upgrade --reinstall \
torch==2.10.0 \
torchvision==0.25.0 \
torchaudio==2.10.0 \
--index-url https://download.pytorch.org/whl/cu128
インストール後、念のため確認しておくと安心です。
python - <<'PY'
import torch
print("torch:", torch.__version__)
print("cuda:", torch.version.cuda)
print("cuda available:", torch.cuda.is_available())
PY
すでに環境が汚れている場合は、個別に uninstall するよりも、仮想環境を作り直す ほうが再現性が高いです。
6. Hugging Face にログインする
このモデルはライセンス同意とログインが必要です。
事前に Hugging Face 側でアクセス権を通したうえで、ローカルでもログインしておきます。
hf auth login
7. vLLM サーバーを起動する
--trust-remote-code を付けて起動します。
vllm serve CohereLabs/cohere-transcribe-03-2026 --trust-remote-code
8. 音声文字起こしを試す
OpenAI 互換の /v1/audio/transcriptions エンドポイントに対して、curl で音声ファイルを投げます。
curl -v -X POST http://localhost:8000/v1/audio/transcriptions \
-F "file=@$(realpath /tmp/ja.wav)" \
-F "model=CohereLabs/cohere-transcribe-03-2026"
手元の音声ファイルが /tmp/ja.wav にない場合は、適宜パスを置き換えてください。
まとめ
CohereLabs/cohere-transcribe-03-2026 は、vLLM 経由で比較的シンプルにローカル起動できます。
流れとしては以下です。
-
uvでクリーン環境を作る - vLLM nightly を入れる
- PyTorch を CUDA 12.8 版に揃える
-
hf auth loginする -
vllm serveで起動して/v1/audio/transcriptionsを試す
特に PyTorch 周りは、uninstall → reinstall よりも、
クリーン環境で --reinstall を使って必要な版へ揃える ほうが分かりやすく、手順としてもきれいです。
同じ構成で試す方の参考になれば幸いです。


