Deploy Private LLMs using Databricks Model Serving | Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
注意
現時点(2023/10/4)では日本リージョンではリリースされていません。
DatabricksモデルサービングにおけるGPUとLLM最適化サポートのパブリックプレビューを発表できることを嬉しく思っています!このローンチによって、レイクハウスプラットフォームにLLMやビジョンモデルを含む全てのタイプのオープンソースやカスタムAIモデルをデプロイすることができます。Databricksモデルサービングは自動で皆様のモデルのLLMサービングを最適化し、設定なしに最高クラスのパフォーマンスを提供します。
Databricksモデルサービングは、統合データ&AIプラットフォームで開発された最初のサーバレスGPUサービング製品です。これによって、データの取り込みからファインチューニング、モデルデプロイメント、モニタリングに至るGenAIアプリケーションの開発とデプロイすべて単一のプラットフォームで行うことができます。
Azureユーザーは、モデルサービングのGPUとLLM最適化サポートを有効化するにはサインアップフォームを提出する必要があります。
Databricksモデルサービングによる生成AIアプリの構築
「Databricksモデルサービングによって、我々は顧客体験と改善し、オペレーションの効率を向上するために、我々のプロセスに生成AIをインテグレーションできるようになりました。モデルサービングによって、我々のデータとモデルに完全なコントロールを維持しながらも、LLMモデルをデプロイできるようになりました。」— Ben Dias, Director of Data Science and Analytics at easyJet - 詳細はこちら
インフラ管理を心配することなしにAIモデルをセキュアにホスティング
Databricksモデルサービングは、複雑なインフラストラクチャを理解する必要なしに、いかなるAIモデルをデプロイするための単一のソリューションを提供します。これは、モデルがスクラッチから構築されたのか、オープンソースを活用したのか、プロプライエタリのデータからファインチューニングされたのか、どのようにトレーニングされたのかに関係なく、自然言語、画像、音声、テーブルデータ、カスタムモデルをすべてデプロイできることを意味します。シンプルにMLflowでモデルを記録すうrと、CUDAのようなGPUライブラリを含むプロダクションレディなコンテナを自動で準備し、サーバレスGPUにデプロイします。我々のフルマネージドサービスは、皆様の工数を削減し、インスタンスの管理は不要となり、バージョンの互換性を維持し、バージョンをパッチします。このサービスは、トラフィックパターンに合わせて自動でインスタンスをスケールさせるので、レーテンシーパフォーマンスを最適化しつつもインフラストラクチャのコストを削減します。
「Databricksモデルサービングは、意味論に基づく検索アプリケーションからメディアトレンドの予測に至る様々なユースケースにインテリジェンスを注入する我々の能力を加速させます。CUDAやGPUサーバーのスケーリングに関する複雑な作業を抽象化、簡素化することで、我々の真の専門性の領域、すなわち、インフラストラクチャの工数を気にすることなしに、我々のすべてのアプリケーションにおけるCondé NastのAI活用領域の拡大にフォーカスさせてくれました。」— Ben Hall, Sr. ML Engr at Condé Nast
最適化LLMサービングによるレーテンシーとコストの削減
Databricksモデルサービングは、大規模言語モデルを効率的にサービングするための最適化を導入し、レーテンシーとコストを最大3-5倍削減します。最適化LLMサービングを用いることは信じられないほど簡単です: OSSあるいはファインチューンされた重みとモデルを指定するだけです。モデルが最適のパフォーマンスでサービングされるように、残りはすべてDatabricksによってケアされます。これによって、モデルの最適化のために低レベルのライブラリを記述することなしに、皆様のアプリケーションにLLMを組み込むことにフォーカスできるようになります。Databricksモデルサービングは、MPTやLlama2クラスのモデルを自動で最適化し、今後提供されるモデルもサポートされます。
注意: Nvidia 4xA10におけるinput_tokens=512, output_tokens=64を指定したllama2-13bのベンチマーク
レイクハウスAIインテグレーションを通じたデプロイメントの加速
LLMをプロダクションに移行する際に行うのはモデルのデプロイだけではありません。検索拡張生成(RAG)やparameter-efficient fine-tuning(PEFT)、標準的なファインチューニングのようなテクニックを用いてモデルを補強する必要があります。さらに、LLLMの品質を評価し、モデルパフォーマンスや安全性を継続的にモニタリングする必要があります。多くの場合、チームは分散したツールの統合に多大なる時間を費やすこととなり、オペレーションの複雑性を増加させ、メンテナンスのオーバーヘッドを引き起こします。
Databricksモデルサービングは、統合データ&AIプラットフォームに構築されており、単一のプラットフォーム上でデータの取り込みからファインチューニング、デプロイメントに至る全体のLLMOpsの管理を可能とし、開発を加速し、エラーを最小化するAIライフサイクルに対する一貫性のあるビューを構築します。モデルサービングは、以下を含む様々なレイクハウスのLLMサービスと連携します:
- ファインチューニング: レイクハウスで皆様のプロプライエタリなデータで基盤モデルをファインチューニングすることで精度を改善し、差別化します。
- ベクトル検索インテグレーション: RAGや意味検索ユースケース向けのベクトル検索をインテグレーションし、シームレスに実行します。こちらからプレビューに登録ください。
- ビルトインのLLM管理: 皆様のすべてのLLM呼び出しにおける中央APIレイヤーとしてのDatabricks AIゲートウェイトのインテグレーション。
- MLflow: MLflowのPromptLab経由のLLMの評価、比較、管理。
- 品質 & 診断: モデルを監視、デバッグするためにDeltaテーブルに自動でリクエストとレスポンスをキャプチャ。トレーニングデータセットを生成するために、Labelboxとのパートナーシップを通じて、このデータとあなたのラベルを結合することも可能です。
- 統合ガバナンス: Unity Catalogを用いて、モデルサービングで利用、生成されるデータ&AIの資産の全てを管理、制御します。
LLMサービングに信頼性とセキュリティを提供
Databricksモデルサービングは、データ、モデル、デプロイメント設定に対する完全なコントロールと、大規模な推論を実現する専用の計算リソースを提供します。お好きなクラウドリージョンで専用のリソースを持つことで、低いオーバーヘッドのレーテンシー、予測可能なパフォーマンス、SLAに支えられた保証によるメリットを享受することができます。さらに、皆様のサービングワークロードは複数レイヤーのセキュリティによって保護されており、最もセンシティブなタスクにおいてもセキュアで信頼できる環境を保証します。厳しい規制のある業界固有のコンプライアンス要件に答えるために、いくつかのコントロールを実装しています。詳細に関しては、こちらのページを参照いただくか、Databricksアカウントチームにお問い合わせください。
GPUとLLMサービングを使い始める
- 起動しましょう!チュートリアル(AWS | Azure)を読んで最初のLLMをDatabricksモデルサービングにデプロイしましょう。
- Azureを利用されているのであれば、GPU、LLMサービングを有効化するためには、こちらにサインアップしてください。
- Databricksモデルサービングのドキュメントで詳細を確認ください。
- こちらから生成AIに対するDatabricksのアプローチをご覧ください。