0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

使用 vLLM で MiniCPM-o-2_6 をデプロイする

Posted at

はじめに

MiniCPM-o 2.6 は、OpenBMB が提供する高性能な言語モデルの一つです。本記事では、vLLM を使用して MiniCPM-o 2.6 を効率的にデプロイする方法を紹介します。vLLM は、大規模言語モデルの推論を高速化するためのライブラリで、特に GPU リソースを効率的に活用することができます。

前提条件

  • CUDA がインストールされた Linux 環境
  • Python 3.11
  • conda または pyenv などの Python 環境管理ツール

手順

1. 仮想環境の作成

まず、Python 3.11 の仮想環境を作成し、アクティベートします。

conda create -n vllm_openbmb python=3.11 -y
conda activate vllm_openbmb

2. コードのクローン

vLLM のリポジトリをクローンし、MiniCPM-o 2.6 用のブランチに切り替えます。

git clone https://github.com/OpenBMB/vllm.git
cd vllm
git checkout minicpmo

3. vLLM のインストール

クローンしたリポジトリから vLLM をインストールします。事前コンパイルされたバイナリを使用するために、環境変数 VLLM_USE_PRECOMPILED を設定します。

VLLM_USE_PRECOMPILED=1 pip install --editable .

4. Flash-Attn のインストール

Flash-Attn は、Transformer モデルの注意力メカニズムを高速化するためのライブラリです。以下のコマンドでインストールします。

pip install flash-attn --no-build-isolation

5. MiniCPM-o 2.6 の起動

vLLM を使用して MiniCPM-o 2.6 を起動します。以下のコマンドでは、4つの GPU を使用し、ポート 8000 でサーバーを起動します。

CUDA_VISIBLE_DEVICES=3,1,0,2 \
VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve openbmb/MiniCPM-o-2_6 --trust-remote-code --served-model-name gpt-4 --gpu-memory-utilization 0.98 --tensor-parallel-size 4 --port 8000 --api-key sk-123456

6. Chatbox クライアントでのテスト

最後に、Chatbox クライアントを使用して、デプロイした MiniCPM-o 2.6 にアクセスし、テストを行います。

image.png

image.png

参考資料

おわりに

以上が、vLLM を使用して MiniCPM-o 2.6 をデプロイする手順です。vLLM を活用することで、大規模言語モデルの推論を高速化し、リソースを効率的に利用することができます。ぜひ、実際に試してみてください。


免責事項: 本記事の内容は、執筆時点の情報に基づいています。最新の情報については、各公式ドキュメントやリポジトリを参照してください。

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?