1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

vLLM で `CohereLabs/cohere-transcribe-03-2026` をローカル起動する

1
Posted at

image.png

初めに

CohereLabs/cohere-transcribe-03-2026 を、vLLM を使ってローカルで動かしてみたときのメモです。

Hugging Face のモデルはこちらです。

今回は、uv でクリーンな Python 環境を作り、vLLM の OpenAI 互換 API で /v1/audio/transcriptions を試すところまでをまとめます。

このモデルについて

CohereLabs/cohere-transcribe-03-2026 は、音声の文字起こし用途で使えるモデルです。
本記事ではモデル自体の評価やベンチマークには踏み込まず、まずは ローカルで起動して API 経由で文字起こしを試す ことに集中します。

また、このモデルは Hugging Face 上でライセンス同意とログインが必要 です。
そのため、起動前に hf auth login を実行しておきます。

前提

今回は以下の方針で進めます。

  • uv でクリーンな仮想環境を作る
  • vLLM は nightly wheel を使う
  • PyTorch は CUDA 12.8 向けの wheel に揃える
  • OpenAI 互換 API で音声文字起こしを確認する

既存の conda 環境の影響を避けたいので、可能ならいったん conda deactivate してから進めるのがおすすめです。


0. ローカル環境について

NVIDIA GeForce RTX 5080 Laptop を使用しています。
CUDAは13.2です。
nvidia-smiの出力結果は以下の通りです。

Sun Apr  5 11:17:15 2026
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 595.54                 Driver Version: 595.79         CUDA Version: 13.2     |
+-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA GeForce RTX 5080 ...    On  |   00000000:C5:00.0  On |                  N/A |
| N/A   47C    P5             22W /  160W |   15671MiB /  16303MiB |     28%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+

+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI              PID   Type   Process name                        GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A            1495      C   /ollama                               N/A      |
|    0   N/A  N/A            2442      C   /python3.12                           N/A      |
+-----------------------------------------------------------------------------------------+

1. uv をインストールする

curl -LsSf https://astral.sh/uv/install.sh | sh
source ~/.local/bin/env

2. 必要なら conda を抜ける

conda 環境の上でそのまま進めると、依存関係でハマることがあります。
不要なら抜けておきます。

conda deactivate

3. クリーンな仮想環境を作る

Python 3.12 の新しい環境を作成して有効化します。

uv venv --python 3.12 --seed --managed-python
source .venv/bin/activate

4. vLLM を nightly でインストールする

まずは vLLM 本体を入れます。
続けて、音声系で必要になる extra と librosa も入れます。

uv pip install -U vllm --torch-backend=auto --extra-index-url https://wheels.vllm.ai/nightly
uv pip install -U "vllm[audio]" librosa

5. PyTorch を CUDA 12.8 版に揃える

ここが今回のポイントです。

クリーンな uv venv を作っているので、
わざわざ torch / torchvision / torchaudio を uninstall してから入れ直す必要はありません。

代わりに、--reinstall を使って CUDA 12.8 用の PyTorch 一式を上書きで揃える ほうがシンプルです。

uv pip install --upgrade --reinstall \
  torch==2.10.0 \
  torchvision==0.25.0 \
  torchaudio==2.10.0 \
  --index-url https://download.pytorch.org/whl/cu128

インストール後、念のため確認しておくと安心です。

python - <<'PY'
import torch
print("torch:", torch.__version__)
print("cuda:", torch.version.cuda)
print("cuda available:", torch.cuda.is_available())
PY

すでに環境が汚れている場合は、個別に uninstall するよりも、仮想環境を作り直す ほうが再現性が高いです。


6. Hugging Face にログインする

このモデルはライセンス同意とログインが必要です。
事前に Hugging Face 側でアクセス権を通したうえで、ローカルでもログインしておきます。

hf auth login

7. vLLM サーバーを起動する

--trust-remote-code を付けて起動します。

vllm serve CohereLabs/cohere-transcribe-03-2026 --trust-remote-code

image.png


8. 音声文字起こしを試す

OpenAI 互換の /v1/audio/transcriptions エンドポイントに対して、curl で音声ファイルを投げます。

curl -v -X POST http://localhost:8000/v1/audio/transcriptions \
  -F "file=@$(realpath /tmp/ja.wav)" \
  -F "model=CohereLabs/cohere-transcribe-03-2026"

image.png

手元の音声ファイルが /tmp/ja.wav にない場合は、適宜パスを置き換えてください。


まとめ

CohereLabs/cohere-transcribe-03-2026 は、vLLM 経由で比較的シンプルにローカル起動できます。
流れとしては以下です。

  1. uv でクリーン環境を作る
  2. vLLM nightly を入れる
  3. PyTorch を CUDA 12.8 版に揃える
  4. hf auth login する
  5. vllm serve で起動して /v1/audio/transcriptions を試す

特に PyTorch 周りは、uninstall → reinstall よりも、
クリーン環境で --reinstall を使って必要な版へ揃える ほうが分かりやすく、手順としてもきれいです。

同じ構成で試す方の参考になれば幸いです。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?