vLLM で `CohereLabs/cohere-transcribe-03-2026` をローカル起動する

Posted at 2026-04-05

初めに

CohereLabs/cohere-transcribe-03-2026 を、vLLM を使ってローカルで動かしてみたときのメモです。

Hugging Face のモデルはこちらです。

CohereLabs/cohere-transcribe-03-2026

今回は、uv でクリーンな Python 環境を作り、vLLM の OpenAI 互換 API で /v1/audio/transcriptions を試すところまでをまとめます。

このモデルについて

CohereLabs/cohere-transcribe-03-2026 は、音声の文字起こし用途で使えるモデルです。
本記事ではモデル自体の評価やベンチマークには踏み込まず、まずは ローカルで起動して API 経由で文字起こしを試す ことに集中します。

また、このモデルは Hugging Face 上でライセンス同意とログインが必要 です。
そのため、起動前に hf auth login を実行しておきます。

前提

今回は以下の方針で進めます。

uv でクリーンな仮想環境を作る
vLLM は nightly wheel を使う
PyTorch は CUDA 12.8 向けの wheel に揃える
OpenAI 互換 API で音声文字起こしを確認する

既存の conda 環境の影響を避けたいので、可能ならいったん conda deactivate してから進めるのがおすすめです。

0. ローカル環境について

NVIDIA GeForce RTX 5080 Laptop を使用しています。
CUDAは13.2です。
nvidia-smiの出力結果は以下の通りです。

Sun Apr  5 11:17:15 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.54                 Driver Version: 595.79         CUDA Version: 13.2     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 5080 ...    On  |   00000000:C5:00.0  On |                  N/A |
| N/A   47C    P5             22W /  160W |   15671MiB /  16303MiB |     28%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A            1495      C   /ollama                               N/A      |
|    0   N/A  N/A            2442      C   /python3.12                           N/A      |
+-----------------------------------------------------------------------------------------+

1. `uv` をインストールする

curl -LsSf https://astral.sh/uv/install.sh | sh
source ~/.local/bin/env

2. 必要なら `conda` を抜ける

conda 環境の上でそのまま進めると、依存関係でハマることがあります。
不要なら抜けておきます。

conda deactivate

3. クリーンな仮想環境を作る

Python 3.12 の新しい環境を作成して有効化します。

uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate

4. vLLM を nightly でインストールする

まずは vLLM 本体を入れます。
続けて、音声系で必要になる extra と librosa も入れます。

uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
uv pip install -U "vllm[audio]" librosa

5. PyTorch を CUDA 12.8 版に揃える

ここが今回のポイントです。

クリーンな uv venv を作っているので、
わざわざ torch / torchvision / torchaudio を uninstall してから入れ直す必要はありません。

代わりに、--reinstall を使って CUDA 12.8 用の PyTorch 一式を上書きで揃える ほうがシンプルです。

uv pip install --upgrade --reinstall \
  torch==2.10.0 \
  torchvision==0.25.0 \
  torchaudio==2.10.0 \
  --index-url https://download.pytorch.org/whl/cu128

インストール後、念のため確認しておくと安心です。

python - <<'PY'
import torch
print("torch:", torch.__version__)
print("cuda:", torch.version.cuda)
print("cuda available:", torch.cuda.is_available())
PY

すでに環境が汚れている場合は、個別に uninstall するよりも、仮想環境を作り直す ほうが再現性が高いです。

6. Hugging Face にログインする

このモデルはライセンス同意とログインが必要です。
事前に Hugging Face 側でアクセス権を通したうえで、ローカルでもログインしておきます。

hf auth login

7. vLLM サーバーを起動する

--trust-remote-code を付けて起動します。

vllm serve CohereLabs/cohere-transcribe-03-2026 --trust-remote-code

8. 音声文字起こしを試す

OpenAI 互換の /v1/audio/transcriptions エンドポイントに対して、curl で音声ファイルを投げます。

curl -v -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@$(realpath /tmp/ja.wav)" \
  -F "model=CohereLabs/cohere-transcribe-03-2026"

手元の音声ファイルが /tmp/ja.wav にない場合は、適宜パスを置き換えてください。

まとめ

CohereLabs/cohere-transcribe-03-2026 は、vLLM 経由で比較的シンプルにローカル起動できます。
流れとしては以下です。

uv でクリーン環境を作る
vLLM nightly を入れる
PyTorch を CUDA 12.8 版に揃える
hf auth login する
vllm serve で起動して /v1/audio/transcriptions を試す

特に PyTorch 周りは、uninstall → reinstall よりも、
クリーン環境で --reinstall を使って必要な版へ揃える ほうが分かりやすく、手順としてもきれいです。

同じ構成で試す方の参考になれば幸いです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up