DeepSeek-V3およびDeepSeek-R1モデルのワンクリックデプロイメント

Last updated at 2025-02-13Posted at 2025-02-13

本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。

DeepSeek-V3およびDeepSeek-R1モデルのデプロイガイド

DeepSeek-V3は、DeepSeekが開発した6710億パラメータを持つ大規模なMoE（Mixture of Experts）言語モデルです。DeepSeek-R1は、DeepSeek-V3-Baseで訓練された高性能推論モデルです。Model Galleryでは、vLLMまたはBladeLLMによる加速デプロイ機能を提供しており、DeepSeek-V3およびDeepSeek-R1シリーズのモデルをワンクリックでデプロイできます。

サポートされているモデルリスト

注: DeepSeek-R1およびDeepSeek-V3のフルバージョンモデルには671Bものパラメータがあり、非常に高い設定とコスト（96GB以上のビデオメモリを持つ8枚のGPUカードなど）が必要です。蒸留モデルを選択することで、より多くのマシンリソースを利用でき、デプロイコストも削減できます。テスト結果によると、DeepSeek-R1-Distill-Qwen-32Bモデルは優れたパフォーマンスとコスト効率を提供し、クラウドデプロイに適しています。その他の蒸留モデル（7B、8B、14Bなど）もデプロイ可能です。Model Galleryには、モデルの実際のパフォーマンスを評価するためのモデル評価ツールもあります（評価エントリはモデル製品ページの右上にあります）。以下の表には、最小構成要件を満たすモデルが表示されています。システムは、Model Galleryのデプロイページにあるリソース仕様選択リストで利用可能な公開リソース仕様を自動的にフィルタリングしています。

デプロイ方法の説明

BladeLLM 加速デプロイ:

BladeLLMは、Alibaba Cloud PAIが独自に開発した高性能な推論フレームワークです。

vLLM 加速デプロイ:

vLLMは、LLM推論加速のために業界で広く認識されているライブラリです。

標準デプロイ:

これは推論加速なしの標準的なデプロイ方法です。最適なパフォーマンスと最大サポートトークン数を得るためには、加速デプロイ（BladeLLM、vLLM）をお勧めします。加速デプロイはAPI呼び出し方式のみをサポートします。標準デプロイはAPI呼び出し方式とWebUIチャットインターフェースの両方をサポートします。

モデルのデプロイ

Model Galleryページに移動: PAIコンソールにログインします。左上の隅でビジネスニーズに合ったリージョンを選択します。左側のナビゲーションペインで「Workspace List」を選択し、指定されたワークスペース名をクリックして対応するワークスペースに入ります。左側のナビゲーションペインで「Getting Started > Model Gallery」を選択します。
モデルカードの選択: Model Galleryページでデプロイしたいモデルカード（例：DeepSeek-R1-Distill-Qwen-32Bモデル）を見つけ、クリックしてモデル製品ページにアクセスします。
デプロイの実行: 右上にある「Deploy」をクリックし、デプロイ方法とリソースを選択してワンクリックでデプロイし、PAI-EASサービスを作成します。
注意: DeepSeek-R1およびDeepSeek-V3をデプロイする場合、ml.gu8v.c192m1024.8-gu120やecs.gn8v-8x.48xlargeモデル（在庫が限られている可能性があります）に加えて、ecs.ebmgn8v.48xlargeモデルも選択肢となります。ただし、このモデルは公開リソースでは利用できません。EAS専用リソースを購入する必要があります。

推論サービスの使用

デプロイ成功後、サービスページで「View Call Information」をクリックして、EndpointとTokenを取得します。サービス呼び出し方法はデプロイ方法によって異なります。詳細な手順はModel Galleryのモデル紹介ページに記載されています。

BladeLLMデプロイ

vLLMデプロイ

標準デプロイ

機能	BladeLLM	vLLM	標準
WebUI	非サポート	非サポート	サポート
オンラインデバッグ	サポート	サポート	サポート
API呼び出し	サポート	サポート	サポート

WebUI
非サポート。Web UIコードをダウンロードしてローカルでWeb UIを起動できます。
注意: BladeLLMとvLLMのWeb UIコードは異なります。

BladeLLM: BladeLLM_github, BladeLLM_oss
vLLM: vLLM_github, vLLM_oss bash
python_disabled webui_client.py --eas_endpoint --eas_token

API呼び出し

completionsインターフェース: <EAS_ENDPOINT>/v1/completions
chatインターフェース: <EAS_ENDPOINT>/v1/chat/completions
API説明ファイル: <EAS_ENDPOINT>/openapi.json
モデルリスト: <EAS_ENDPOINT>/v1/models

互換性	BladeLLM	vLLM	標準
OpenAI SDKとの互換性	非互換	互換	非互換

リクエストデータ形式

completionsとchatのリクエストデータ形式は異なります。BladeLLMと比較すると、モデルパラメータを追加する必要があります。モデルパラメータの値は<EAS_ENDPOINT>/v1/modelsインターフェースから取得できます。文字列型とJSON型の両方をサポートしています。

BladeLLM 加速デプロイ

Completionsリクエストデータ:json
{ "prompt": "hello world", "stream": true }
Chatリクエストデータ:json
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello World!!"
}
]
}

vLLM 加速デプロイ

以下の例では、<model_name>を<EAS_ENDPOINT>/v1/models APIから取得したモデル名に置き換えてください。

Completionsリクエストデータ:json
{ "model": "", "prompt": "hello world" }
Chatリクエストデータ:json
{
"model": "",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user
長期的な利用の場合、パブリックリソースグループをセービングスプランと組み合わせるか、サブスクリプション型のEASリソースグループを購入することでコストを削減することを検討してください。非プロダクション環境では、デプロイ時にプリエンプティブルモードを有効にできます。ただし、入札が成功するには特定の条件があり、リソースの不安定性が生じるリスクがあることに注意してください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up