本記事はこちらのブログを参考にしています。
翻訳にはアリババクラウドのModelStudio(Qwen)を使用しております。
大規模モデルの主戦場はトレーニングから推論へ:AIゲートウェイの役割と進化
大規模モデルの主要な戦場はトレーニングから推論へと移行しており、これは業界全体での共通認識です。ますます多くの企業が、内部ニーズと外部商業方向の両方に対応する大規模モデルアプリケーションを設計し始め、それを本番環境にデプロイしています。このプロセスを通じて、初期の大規模モデルアプリケーションの概念実証段階とは異なる一連の新しい要件が浮かび上がってきました。これらの新しい要件は、よりスケーラビリティや安全な利用に関連しており、AIゲートウェイはAIインフラストラクチャの最も議論されている主要コンポーネントの1つとなっています。私たちは、AIゲートウェイはAPIゲートウェイとは独立した新しい形式ではなく、むしろAIシナリオの新しい要件に合わせた拡張であり、APIゲートウェイの進化および継承であると考えています。そこで、APIの視点からAIゲートウェイの機能を分類し、共通の理解を促進します。
1. APIゲートウェイからの継承
APIゲートウェイが提供する多様な機能と関与するさまざまな役割があるため、すべての機能をユーザーに基づいて分類します。これには3つの主要なシナリオが含まれます。API開発、供給、消費で、それぞれAPIインターフェースR&Dチーム、APIプラットフォームR&DおよびO&Mチーム、そしてAPIプラットフォームの外部呼び出し元に対応します。
API開発シナリオ
API Firstでは、コーディングの前にAPI仕様を定義します。APIを定義せずに直接コーディングするのとは異なり、API Firstはアプリケーションを構築する前にAPIインターフェースの設計と開発を重視します。APIはシステムのコアアーキテクチャコンポーネントとして扱われ、明確に定義されたインターフェース仕様を通じてモジュール化を達成します。例えば、パブリッククラウド上のクラウド製品はすべてAPI呼び出し方法を提供し、WeChatミニプログラムやDingTalkオープンプラットフォームなどのプラットフォームも開発者にAPIインターフェースを提供します。このようなLEGOブロックのようなモジュラーなシステムは、標準化されたインターフェースを通じてサービスの柔軟な組み合わせを可能にし、システムのスケーラビリティと保守性を向上させ、エコシステムの効率を高めます。
API供給シナリオ
API供給シナリオとは、APIプロバイダー(企業、プラットフォーム、またはサービスなど)が標準化されたインターフェースを通じてデータや機能を公開するプロセスを指します。その中核は、APIの作成、管理、保守を行い、可用性、セキュリティ、効率を確保することです。主要な機能には以下が含まれます:
-
APIセキュリティ: APIをさまざまなセキュリティ脅威から保護し、認可されたユーザーとアプリケーションのみがAPIにアクセスできるようにし、送信時および保存時のデータの機密性、完全性、可用性を確保します。例としては、身元確認、認可管理、データ暗号化/復号、攻撃防止メカニズムなどがあります。
-
グレーリリース: 新しいAPIバージョンや機能を本番環境で徐々に導入する戦略です。一部のユーザーまたはリクエストトラフィックを新しいバージョンのAPIに誘導しつつ、残りは古いバージョンに留まらせることで、新APIのテストと検証を行いながら、全体のシステム安定性やユーザーエクスペリエンスに影響を与えないようにします。
-
キャッシュ: APIレスポンス結果を一時的にキャッシュサーバーに格納します。同じリクエストが再度到着した場合、バックエンドサーバーに再アクセスする代わりにキャッシュから直接レスポンス結果を取得することで、APIの応答速度とシステムパフォーマンスを向上させます。
API消費シナリオ
API消費シナリオとは、消費者(アプリケーションや開発者など)が外部APIを統合して迅速に機能を実装したり、データを取得したりするプロセスを指します。その中核は、プラットフォームが提供する機能やデータを利用してビジネスニーズを満たすことにあります。主要な側面には以下が含まれます:
-
コール監査: APIコール活動の包括的な記録、監視、分析を行います。各APIコールの詳細を細かく記録し、コール時間、呼び出し元の身元、呼び出されたAPIインターフェース、リクエストパラメータ、レスポンス結果、レスポンスタイムなどを含みます。
-
呼び出し元クォータ制限: APIゲートウェイによって設定される、一定期間内に各呼び出し元(ユーザー、アプリケーション、IPアドレスなど)によるAPIコール数、トラフィック量、またはリソース使用量を制限するメカニズムです。
-
バックエンド保護制限: APIアクセストラフィックを管理・制御し、システムの安定かつ効率的な運用を確保します。過剰または異常なトラフィックによるシステムダウンやパフォーマンス劣化を防ぎます。これには負荷分散、レート制限、フォールバック、サーキットブレーカーなどが含まれます。
2. APIゲートウェイの進化
大規模モデルの文脈では、開発、供給、消費シナリオにおいてより豊富な要件が浮かび上がります。
大規模モデルAPI開発シナリオ
API FirstやAPIをファーストクラスの市民として扱うことは、もはや単なるスローガンではなく、実際のアプリケーション開発標準として徐々に普及しています。エージェントの開発と運用にはAPIの呼び出しが必要であり、オープンプラットフォームを通じてサービスを提供する場合にもAPIが必要です。APIゲートウェイは、設計、開発、テスト、リリース、収益化、運用監視、セキュリティ管理、廃止まで、APIのライフサイクル全段階をカバーできます。企業のこうした機能に対する要求はますます顕著になっています。APIゲートウェイに基づき、エージェント開発効率を向上させるための複数のプラグイン機能を提供できます。例としては、AIプロンプトテンプレート [1]、API AIエージェント [2]、JSONフォーマット [3] があり、これらはデフォルトまたはユーザー設定のJSONスキーマに従ってAIレスポンスを構造化します。
大規模モデルAPI供給シナリオ
-
柔軟なマルチモデル切り替えとフォールバック再試行: バックエンドシステムでは現在、複数の大規模モデルを統合するのが一般的で、これはユーザー向けの選択肢としてだけでなく、障害時や容量制限時のフォールバックメカニズムとしても機能します [4]。
-
コンテンツ安全性とコンプライアンス: コンテンツセーフティプラグインを使用して有害または不適切なコンテンツをフィルタリングし、機密データを含むリクエストを検出してブロックし、AI生成コンテンツの品質とコンプライアンスをレビューします [5]。
-
セマンティックキャッシュ: 大規模モデルAPIサービスの料金体系は、キャッシュされたレスポンス(X元/百万入力トークン)とキャッシュされていないレスポンス(Y元/百万入力トークン)で区別され、XはYよりも大幅に低くなります。例えば、Tongyiシリーズでは、XはYの40%に過ぎません。セマンティックキャッシュは、LLMレスポンスをインメモリデータベースに保存し、ゲートウェイプラグインを通じて推論のレイテンシとコストを改善します。ゲートウェイは自動的にユーザーの会話履歴をキャッシュし、後続の対話でコンテキストに埋め込む
ゲートウェイにおける集中処理とその利点
ゲートウェイでの集中処理は、ユーザーの機微な情報をよりよく保護し、大規模モデルが直接機密データにアクセスすることによるセキュリティリスクを回避します。
スケーラビリティと柔軟性
新機能の容易な統合
ビジネスが進化するにつれて、新しい機能をAPI管理に追加する必要が出てくる場合があります。例えば、新しいセキュリティプロトコルをサポートしたり、新しいトラフィック制御アルゴリズムを導入したりすることが考えられます。これらの新機能をゲートウェイレベルで実装することで、大規模モデルサービス層に広範な変更を加えることなく簡単に統合できます。これにより、ビジネスニーズに迅速に対応でき、システムのスケーラビリティが向上します。
複数モデルアクセスのサポート
実際のアプリケーションでは、複数の異なる大規模モデルサービスが同時に使用される場合があります。ゲートウェイは、一元的なエントリーポイントとして機能し、異なる大規模モデルサービスに対して一貫したAPI管理サービスを提供することができます。これにより、複数の大規模モデルの管理とスケジューリングが簡素化されます。各大規模モデルサービス層で個別にAPIゲートウェイ機能を実装すると、システムの複雑さと管理の難易度が増します。
可観測性と監視
集中的な監視と分析
ゲートウェイは、すべてのAPIリクエストを集中して監視および分析でき、リクエスト応答時間、呼び出し頻度、エラー率などのさまざまなメトリクスを収集できます。このデータを分析することで、パフォーマンスのボトルネックやセキュリティ上の脆弱性などの問題を特定でき、タイムリーな最適化と修正が可能です。大規模モデルサービス層内で監視機能を実装すると、システム全体のAPI呼び出し状況を包括的に理解し分析することが困難になります。
障害診断と特定
API呼び出しが失敗した場合、ゲートウェイレベルで問題を診断し特定するのが容易です。ゲートウェイは、各APIリクエストに関する詳細な情報を記録しており、その情報にはソース、リクエストパラメータ、応答結果などが含まれます。この情報を分析することで、障害の原因と場所を迅速に特定でき、トラブルシューティングと修復に必要な時間とコストを削減します。
AIゲートウェイの今後の方向性
Wasmプラグインの動的な拡張機能のおかげで、HigressはAI時代において急速に進化しています。大規模モデルAPIを管理するためのすべての基盤機能は、すでにオープンソースのHigressおよびAlibaba CloudのクラウドネイティブAPIゲートウェイで利用可能です。
さらに、Alibaba CloudのクラウドネイティブAPIゲートウェイはAI API管理機能を提供しており、AI時代においてAPIをより簡単かつ効率的に管理できるようになります。今後は、標準化されたコンテンツ出力への進化、幻覚現象の低減、安定性と使いやすさの向上に注力します。開発者の皆さまには、ぜひ私たちのコミュニティに参加いただき、ニーズや課題を共有していただきながら、より使いやすいオープンソース製品や商用サービスの開発に一緒に取り組んでいきたいと考えています。
[1] https://higress.cn/docs/latest/plugins/ai/api-dev/ai-prompt-template/
[2] https://higress.cn/docs/latest/plugins/ai/api-dev/ai-agent/
[3] https://higress.cn/docs/latest/plugins/ai/api-dev/ai-json-resp/
[4] https://higress.cn/docs/latest/plugins/ai/api-provider/ai-proxy/
[5] https://higress.cn/docs/latest/plugins/ai/api-provider/ai-security-guard/
[6] https://higress.cn/docs/latest/plugins/ai/api-provider/ai-cache/
[7] https://higress.cn/docs/latest/plugins/ai/api-consumer/ai-token-ratelimit/
[8] https://higress.cn/docs/latest/plugins/ai/api-consumer/ai-quota
上記の翻訳は、原文の内容を忠実に反映しつつ、日本語の自然な表現に整えています。また、指定されたルール(マークダウン形式のリンク保持など)も厳守しています。