0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DeepSeek-V3およびDeepSeek-R1モデルのワンクリックデプロイメント

Last updated at Posted at 2025-02-13

本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。

DeepSeek-V3およびDeepSeek-R1モデルのデプロイガイド

DeepSeek-V3は、DeepSeekが開発した6710億パラメータを持つ大規模なMoE(Mixture of Experts)言語モデルです。DeepSeek-R1は、DeepSeek-V3-Baseで訓練された高性能推論モデルです。Model Galleryでは、vLLMまたはBladeLLMによる加速デプロイ機能を提供しており、DeepSeek-V3およびDeepSeek-R1シリーズのモデルをワンクリックでデプロイできます。

サポートされているモデルリスト

注: DeepSeek-R1およびDeepSeek-V3のフルバージョンモデルには671Bものパラメータがあり、非常に高い設定とコスト(96GB以上のビデオメモリを持つ8枚のGPUカードなど)が必要です。蒸留モデルを選択することで、より多くのマシンリソースを利用でき、デプロイコストも削減できます。テスト結果によると、DeepSeek-R1-Distill-Qwen-32Bモデルは優れたパフォーマンスとコスト効率を提供し、クラウドデプロイに適しています。その他の蒸留モデル(7B、8B、14Bなど)もデプロイ可能です。Model Galleryには、モデルの実際のパフォーマンスを評価するためのモデル評価ツールもあります(評価エントリはモデル製品ページの右上にあります)。以下の表には、最小構成要件を満たすモデルが表示されています。システムは、Model Galleryのデプロイページにあるリソース仕様選択リストで利用可能な公開リソース仕様を自動的にフィルタリングしています。
1

デプロイ方法の説明

BladeLLM 加速デプロイ:

BladeLLMは、Alibaba Cloud PAIが独自に開発した高性能な推論フレームワークです。

vLLM 加速デプロイ:

vLLMは、LLM推論加速のために業界で広く認識されているライブラリです。

標準デプロイ:

これは推論加速なしの標準的なデプロイ方法です。最適なパフォーマンスと最大サポートトークン数を得るためには、加速デプロイ(BladeLLM、vLLM)をお勧めします。加速デプロイはAPI呼び出し方式のみをサポートします。標準デプロイはAPI呼び出し方式とWebUIチャットインターフェースの両方をサポートします。

モデルのデプロイ

  1. Model Galleryページに移動: PAIコンソールにログインします。左上の隅でビジネスニーズに合ったリージョンを選択します。左側のナビゲーションペインで「Workspace List」を選択し、指定されたワークスペース名をクリックして対応するワークスペースに入ります。左側のナビゲーションペインで「Getting Started > Model Gallery」を選択します。

  2. モデルカードの選択: Model Galleryページでデプロイしたいモデルカード(例:DeepSeek-R1-Distill-Qwen-32Bモデル)を見つけ、クリックしてモデル製品ページにアクセスします。

  3. デプロイの実行: 右上にある「Deploy」をクリックし、デプロイ方法とリソースを選択してワンクリックでデプロイし、PAI-EASサービスを作成します。
    注意: DeepSeek-R1およびDeepSeek-V3をデプロイする場合、ml.gu8v.c192m1024.8-gu120やecs.gn8v-8x.48xlargeモデル(在庫が限られている可能性があります)に加えて、ecs.ebmgn8v.48xlargeモデルも選択肢となります。ただし、このモデルは公開リソースでは利用できません。EAS専用リソースを購入する必要があります。
    1

推論サービスの使用

デプロイ成功後、サービスページで「View Call Information」をクリックして、EndpointとTokenを取得します。サービス呼び出し方法はデプロイ方法によって異なります。詳細な手順はModel Galleryのモデル紹介ページに記載されています。

BladeLLMデプロイ

vLLMデプロイ

標準デプロイ

機能 BladeLLM vLLM 標準
WebUI 非サポート 非サポート サポート
オンラインデバッグ サポート サポート サポート
API呼び出し サポート サポート サポート

WebUI
非サポート。Web UIコードをダウンロードしてローカルでWeb UIを起動できます。
注意: BladeLLMとvLLMのWeb UIコードは異なります。

API呼び出し

  • completionsインターフェース: <EAS_ENDPOINT>/v1/completions
  • chatインターフェース: <EAS_ENDPOINT>/v1/chat/completions
  • API説明ファイル: <EAS_ENDPOINT>/openapi.json
  • モデルリスト: <EAS_ENDPOINT>/v1/models
互換性 BladeLLM vLLM 標準
OpenAI SDKとの互換性 非互換 互換 非互換

リクエストデータ形式

completionsとchatのリクエストデータ形式は異なります。BladeLLMと比較すると、モデルパラメータを追加する必要があります。モデルパラメータの値は<EAS_ENDPOINT>/v1/modelsインターフェースから取得できます。文字列型とJSON型の両方をサポートしています。

BladeLLM 加速デプロイ

  • Completionsリクエストデータ:json
    { "prompt": "hello world", "stream": true }
  • Chatリクエストデータ:json
    {
    "messages": [
    {
    "role": "system",
    "content": "You are a helpful assistant."
    },
    {
    "role": "user",
    "content": "Hello World!!"
    }
    ]
    }

vLLM 加速デプロイ

以下の例では、<model_name><EAS_ENDPOINT>/v1/models APIから取得したモデル名に置き換えてください。

  • Completionsリクエストデータ:json
    { "model": "", "prompt": "hello world" }
  • Chatリクエストデータ:json
    {
    "model": "",
    "messages": [
    {
    "role": "system",
    "content": "You are a helpful assistant."
    },
    {
    "role": "user
    長期的な利用の場合、パブリックリソースグループをセービングスプランと組み合わせるか、サブスクリプション型のEASリソースグループを購入することでコストを削減することを検討してください。非プロダクション環境では、デプロイ時にプリエンプティブルモードを有効にできます。ただし、入札が成功するには特定の条件があり、リソースの不安定性が生じるリスクがあることに注意してください。
0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?