本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
AIゲートウェイの8つの一般的なアプリケーションシナリオ(消費者視点)
以前、サプライヤーの視点から「AIゲートウェイの10の必須機能」を共有しました。今回は、消費者の視点からAIゲートウェイの8つの一般的なアプリケーションシナリオを紹介します。現在、多くの企業が大規模モデルを主に内部利用のためにデプロイしているため、この記事で挙げるほとんどのアプリケーションシナリオは内部需要に基づいており、外部サービス提供においては、需要の粒度や強度によりAIゲートウェイへの依存が高くなります。
マルチモデルサービス
大規模モデルには独占はありません。企業はしばしばマルチモデル戦略を実施します。従業員はフロントエンドでさまざまな大規模モデルを選択でき、バックエンドの大規模モデルサービスを自由に切り替えられます。例えば、ある企業ではDeepSeek、Qwen、または自社で構築したモデルなど、複数の大規模モデルを内部にデプロイし、従業員が選択してより豊富で選択可能な生成結果を得られるようにしています。企業が多様化するほど、マルチモデルサービスへの需要が強くなります。
シナリオ要件:
- マルチモーダルビジネス統合:企業はテキスト、画像、音声、3Dなどを処理する必要があります。研究および製品チームは強力な推論能力を持つモデルを必要とし、カスタマーサービス、マーケティング、グラフィックデザインチームはシーンベースでの画像大規模モデルのニーズがあり、工業デザインや映画制作チームは音声・映像大規模モデルのニーズがあります。
- 複数の垂直セクターで活動する企業:業界特性に基づいた専門モデルを呼び出す必要があります。特にサプライチェーン側の企業は複数の業界にサービスを提供することが多く、これにはいくつかの垂直大規模モデルの需要が含まれる場合があります。
- 複雑なタスクのための協働シナリオ:単一のタスクで複数のモデルが協力して成果を向上させる必要があります。複数の大規模モデルが共同でコンテンツを生成することで最良の結果が得られます。
- 安全性と効率の両方を要求するシナリオ:医療機関などの場合、独自のプライベートモデルを使用して患者データを分析し、一般モデルはそれ以外の無関係なニーズに使用して、データベースへの書き込み時にセンシティブデータと非センシティブデータが混ざることを防ぎます。
ソリューション:
アリババクラウドのネイティブAPIゲートウェイは、モデル名に基づいて異なるバックエンドモデル間での切り替えをサポートするAIゲートウェイを提供しており、同じインターフェースで複数の大規模モデルサービスに接続できます。これらのモデルはBai Lian、PAI、IDCの自社構築モデルなどの異なるプラットフォームにデプロイ可能です。異なるモデルが異なる開発および運用チームに属していても、協力コストはかかりません。
コンシューマー認証
シナリオ要件:
マルチテナントモデルサービスのサブレンタルシナリオ:企業が異なる部門やチームに共有の大規模モデルサービスを提供する際、APIキーを使ってテナントを区別し、データの分離と権限管理を確保します。具体的な要件には以下が含まれます:
- 各テナントに独立したAPIキーを割り当て、アクセス権限とリソース配分を制御します。例:部署Aは1人あたり1日20回の呼び出し制限、部署Bは1日30回の呼び出し制限。
- テナント定義のモデルパラメータ(温度係数、出力長など)をサポートしつつ、ゲートウェイを通じて権限を検証する必要があります。
内部の役割ベースのアクセス制御:異なる内部役割はモデル機能への差別化されたアクセスが必要です。具体的な要件には以下が含まれます:
- RBAC(Role-Based Access Control)に基づいて敏感な機能(モデルの微調整やデータエクスポートなど)を制限します。
- コスト面での考慮から、マルチモーダル大規模モデルはデザイン部門のみが利用可能。
- 操作ログを記録し、ユーザーIDに関連付けて内部監査要件を満たします。例:金融企業はリスク評価モデルをリスク管理部門内に限定し、通常の従業員による不正使用を防止します。
実装ソリューション:
アリババクラウドのネイティブAPIゲートウェイは、ルーティング設定認証とコンシューマー認証をサポートするAIゲートウェイを提供しており、APIキーの生成、配布、承認、有効化、検証プロセスを通じてAPIアクセスのアクセス制御、セキュリティ、ポリシー管理を行います。これにより、認可されたリクエストのみがサービスにアクセスできるようになります。
- 身元認証:リクエスト元が登録済み/認可済みのユーザーまたはシステムであることを確認します。
- リスクインターセプト:悪意のある攻撃、違法な呼び出し、リソースの乱用を防止します。
- コンプライアンス保証:データセキュリティ規制と企業監査要件を満たします。
- コストコントロール:認証に基づく正確な課金とAPIクォータ管理を実施します。
自動モデル切り替え
シナリオ要件:
- モデル固有の特性による例外:大規模モデルは確率的な変動を持つ結果を生成する可能性があり、ランダムな出力が不安定になることがあります。新バージョンの公開によってトラフィック損失が発生することもあります。
- ユーザー行動の不適切さによる例外:API仕様に準拠しないユーザー要求がタイムアウトや中断を引き起こす可能性があります。また、悪意のあるプロンプトがモデルの安全性保護メカニズムをトリガーし、空の結果やエラーコードを返すこともあります。
- リソースとパフォーマンスの制限:過剰なリクエスト頻度がスロットリング戦略を引き起こし、サービスが利用不可能になることがあります。長いリクエストが多量のメモリを占有し、後続のリクエストがブロックされ、最終的にタイムアウトにつながります。
- 依存サービスの障害:RAG検索データベースなどの外部APIがアクセス不能になると、モデルが必要な文脈を取得できなくなります。
実装ソリューション:
アリババクラウドのネイティブAPIゲートウェイは、特定の大規模モデルへのサービスリクエストが失敗した場合に他の指定された大規模モデルサービスにフォールバックする機能をサポートするAIゲートウェイを提供し、サービスの堅牢性と継続性を確保します。
トークンレベルのレート制限
シナリオ要件:
内部利用では必ずしも頻繁な同時リクエストがあるわけではありませんが、レート制限機能を設定することでハードウェアリソースの経済的な構成が可能です。例えば、1万人の従業員を持つ企業でも、1万人同時オンラインユーザーに対応するリソースを構成する必要はなく、7,000人のリソースで十分であり、超過分はレート制限によりリソースの遊休を防ぎます。その他の要件には以下が含まれます:
- リソース管理の強化:大規模モデルによる計算資源の消費は制御不能になりがちで、レート制限によりシステムの過負荷を防ぎ、ピーク時でもすべてのユーザーに安定したパフォーマンスを提供します。
- 特定のユーザー層別化:トークンレート制限はConsumerIdまたはAPIキーに基づくことができます。
- 悪意のある利用の防止:トークン数を制限することでジャンクリクエストや攻撃を減らし、リソースの損傷を防ぎます。
レスポンスソリューション:
アリババクラウドのネイティブAPIゲ
レスポンスソリューション:
Alibaba CloudのネイティブAPI Gatewayは、Redisにリクエストおよびレスポンスの内容をキャッシュするための拡張ポイントを備えたAIゲートウェイを提供し、Redisサービス情報の設定やキャッシュ期間の設定をサポートしています。オンライン検索 + Webページの全文検索
シナリオ要件:
オンライン検索は大規模モデルにおける標準的な機能となっています。もしオンライン検索がサポートされていない場合や、Webページのタイトル、概要、キーワードのみを取得できるだけで全文が取得できない場合、コンテンツ生成の効果は大幅に低下します。
レスポンスソリューション:
Alibaba CloudのネイティブAPI Gatewayは、Webページの全文検索を可能にするAIゲートウェイを提供し、オンライン検索を強化します。これには以下が含まれます:
● LLMによるクエリの書き換え: LLMを使用してユーザーの意図を特定し、検索コマンドを生成することで、検索結果を大幅に向上させることができます。
● キーワード抽出: 異なるエンジンでは異なるキーワードが必要です。例えば、Arxivの多くの論文は英語で書かれているため、キーワードも英語である必要があります。
● ドメイン認識: 例えば、Arxivではコンピュータサイエンス、物理学、数学、生物学などの分野に分類されています。指定された分野での検索により、検索精度が向上します。
● 長いクエリの分割: 長いクエリを複数の短いクエリに分割することで、検索効率を向上させることができます。
● 高品質なデータ: Google、Bing、Arxivなどは記事の概要しか出力しないことがありますが、Alibaba Cloudの情報検索サービス(IQS)との統合により、全文検索が可能となり、LLM生成コンテンツの品質が向上します。
大規模モデルの観測可能性
シナリオ要件:
観測可能性はコスト管理や安定性シナリオにおいて一般的に見られる要素です。大規模モデルアプリケーションのリソース消費はWebアプリケーションよりも敏感で脆弱であるため、コスト管理における観測可能性の需要がより顕著になります。包括的な観測可能性が欠如している場合、異常な呼び出しによって数万ドルから数十万ドルの損失が発生する可能性があります。従来のQPS、RT、エラーレートなどの観測可能性指標に加えて、大規模モデルの観測可能性には以下も含めるべきです:
● ユーザー(消費者)に基づくトークン消費統計。
● モデルに基づくトークン消費統計。
● レート制限メトリクス: スロットリングにより単位時間あたり何件のリクエストが遮断され、どの消費者がスロットリングされているか。
● キャッシュヒット率。
● セキュリティ統計: リスクタイプ統計およびリスク消費者統計。
レスポンスソリューション:
Alibaba Cloud API Gatewayは、ゲートウェイ監視データの表示をサポートしており、ネイティブAPI Gatewayでログ配信とトレーサビリティを有効にし、REST APIやインターフェースデータの監視を実現します。これらの機能は、インターフェースパフォーマンスの管理と最適化をより効率的に行うのに役立ち、全体的なサービス品質を向上させます。さらに、SLSを通じて、Actiontrailイベント、クラウド製品の観測可能なログ、LLMゲートウェイの詳細ログ、詳細な対話ログ、プロンプトトレース、リアルタイム推論呼び出しの詳細ログを集約し、完全な統合観測可能性ソリューションを構築します。