本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
DeepSeek-V3およびDeepSeek-R1モデルのデプロイガイド
DeepSeek-V3は、DeepSeekが開発した6710億パラメータを持つ大規模なMoE(Mixture of Experts)言語モデルです。DeepSeek-R1は、DeepSeek-V3-Baseで訓練された高性能推論モデルです。Model Galleryでは、vLLMまたはBladeLLMによる加速デプロイ機能を提供しており、DeepSeek-V3およびDeepSeek-R1シリーズのモデルをワンクリックでデプロイできます。
サポートされているモデルリスト
注: DeepSeek-R1およびDeepSeek-V3のフルバージョンモデルには671Bものパラメータがあり、非常に高い設定とコスト(96GB以上のビデオメモリを持つ8枚のGPUカードなど)が必要です。蒸留モデルを選択することで、より多くのマシンリソースを利用でき、デプロイコストも削減できます。テスト結果によると、DeepSeek-R1-Distill-Qwen-32Bモデルは優れたパフォーマンスとコスト効率を提供し、クラウドデプロイに適しています。その他の蒸留モデル(7B、8B、14Bなど)もデプロイ可能です。Model Galleryには、モデルの実際のパフォーマンスを評価するためのモデル評価ツールもあります(評価エントリはモデル製品ページの右上にあります)。以下の表には、最小構成要件を満たすモデルが表示されています。システムは、Model Galleryのデプロイページにあるリソース仕様選択リストで利用可能な公開リソース仕様を自動的にフィルタリングしています。
デプロイ方法の説明
BladeLLM 加速デプロイ:
BladeLLMは、Alibaba Cloud PAIが独自に開発した高性能な推論フレームワークです。
vLLM 加速デプロイ:
vLLMは、LLM推論加速のために業界で広く認識されているライブラリです。
標準デプロイ:
これは推論加速なしの標準的なデプロイ方法です。最適なパフォーマンスと最大サポートトークン数を得るためには、加速デプロイ(BladeLLM、vLLM)をお勧めします。加速デプロイはAPI呼び出し方式のみをサポートします。標準デプロイはAPI呼び出し方式とWebUIチャットインターフェースの両方をサポートします。
モデルのデプロイ
-
Model Galleryページに移動: PAIコンソールにログインします。左上の隅でビジネスニーズに合ったリージョンを選択します。左側のナビゲーションペインで「Workspace List」を選択し、指定されたワークスペース名をクリックして対応するワークスペースに入ります。左側のナビゲーションペインで「Getting Started > Model Gallery」を選択します。
-
モデルカードの選択: Model Galleryページでデプロイしたいモデルカード(例:DeepSeek-R1-Distill-Qwen-32Bモデル)を見つけ、クリックしてモデル製品ページにアクセスします。
-
デプロイの実行: 右上にある「Deploy」をクリックし、デプロイ方法とリソースを選択してワンクリックでデプロイし、PAI-EASサービスを作成します。
注意: DeepSeek-R1およびDeepSeek-V3をデプロイする場合、ml.gu8v.c192m1024.8-gu120やecs.gn8v-8x.48xlargeモデル(在庫が限られている可能性があります)に加えて、ecs.ebmgn8v.48xlargeモデルも選択肢となります。ただし、このモデルは公開リソースでは利用できません。EAS専用リソースを購入する必要があります。
推論サービスの使用
デプロイ成功後、サービスページで「View Call Information」をクリックして、EndpointとTokenを取得します。サービス呼び出し方法はデプロイ方法によって異なります。詳細な手順はModel Galleryのモデル紹介ページに記載されています。
BladeLLMデプロイ
vLLMデプロイ
標準デプロイ
機能 | BladeLLM | vLLM | 標準 |
---|---|---|---|
WebUI | 非サポート | 非サポート | サポート |
オンラインデバッグ | サポート | サポート | サポート |
API呼び出し | サポート | サポート | サポート |
WebUI
非サポート。Web UIコードをダウンロードしてローカルでWeb UIを起動できます。
注意: BladeLLMとvLLMのWeb UIコードは異なります。
- BladeLLM: BladeLLM_github, BladeLLM_oss
- vLLM: vLLM_github, vLLM_oss bash
python_disabled webui_client.py --eas_endpoint --eas_token
API呼び出し
- completionsインターフェース:
<EAS_ENDPOINT>/v1/completions
- chatインターフェース:
<EAS_ENDPOINT>/v1/chat/completions
- API説明ファイル:
<EAS_ENDPOINT>/openapi.json
- モデルリスト:
<EAS_ENDPOINT>/v1/models
互換性 | BladeLLM | vLLM | 標準 |
---|---|---|---|
OpenAI SDKとの互換性 | 非互換 | 互換 | 非互換 |
リクエストデータ形式
completionsとchatのリクエストデータ形式は異なります。BladeLLMと比較すると、モデルパラメータを追加する必要があります。モデルパラメータの値は<EAS_ENDPOINT>/v1/models
インターフェースから取得できます。文字列型とJSON型の両方をサポートしています。
BladeLLM 加速デプロイ
- Completionsリクエストデータ:json
{ "prompt": "hello world", "stream": true } - Chatリクエストデータ:json
{
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello World!!"
}
]
}
vLLM 加速デプロイ
以下の例では、<model_name>
を<EAS_ENDPOINT>/v1/models
APIから取得したモデル名に置き換えてください。
- Completionsリクエストデータ:json
{ "model": "", "prompt": "hello world" } - Chatリクエストデータ:json
{
"model": "",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user
長期的な利用の場合、パブリックリソースグループをセービングスプランと組み合わせるか、サブスクリプション型のEASリソースグループを購入することでコストを削減することを検討してください。非プロダクション環境では、デプロイ時にプリエンプティブルモードを有効にできます。ただし、入札が成功するには特定の条件があり、リソースの不安定性が生じるリスクがあることに注意してください。