Alibaba Cloud HPN: 大規模言語モデル学習向けデータセンターネットワーク
Alibaba Cloudのイノベーション戦略とクラウド+AIの将来像について、情報収集しことを複数に分けてブログ化した。その1はこちら。その2はこちら。
今回は、Alibaba Cloudのイノベーション戦略を調べていく中で、個人的にとても興味深いものを見つけたので最後に紹介させてほしい。
SIGCOMM 2024 - Alibaba Cloud HPN - YouTube
HPN(High Performance Network) は大規模言語モデル(LLM)の学習に特化して設計されたデータセンター向けの新しいネットワークアーキテクチャの1つとして、Alibaba Cloudの研究者たちによって生み出された。大規模なGPUクラスターの標準になることを目指しており、Alibaba Cloud内においては約1年前(注: 記事執筆時点で)から導入され稼働しているという。数万ものGPUの相互接続がサポートされ、何千ものLLMモデルトレーニングジョブに優れたパフォーマンスを発揮する。
一般的なクラウドコンピューティングでのネットワーク帯域使用量は常時20%未満で安定しているが、数万GPUという大規模クラスタで実行するLLM学習によって発生するバーストはEthernet規格(400G)の上限に達する可能性がある。また、学習プロセスは障害に敏感で、いずれかのGPUやホストで障害が発生するとプロセス全体の信頼性に致命的な影響を与えるため、これらを解決する必要がある。
HPNアーキテクチャはLLM学習の特性に基づいて構築され、スケーラビリティとパフォーマンス、信頼性の確保を目的としている。当面の目標としては15,000GPUだが、将来的には100,000GPUのサポートが目標だそう。
パフォーマンス目標のためにレイテンシを最小限に抑え、ECMPハッシュの偏りを大幅に減らすことで高スループットを実現。また、2台の独立したToR(Top-of-Rack)を連携させるノンスタック型デュアルToRを採用し、単一障害点を解消することで実運用での信頼性を確保する。
AIを用いて設計のポイントを抽出した。
- 2層デュアルプレーン構造: 従来の3層Closアーキテクチャではなく、2層構造を採用し、さらに「デュアルプレーン」という技術を導入することで、ECMP(等コストマルチパス)におけるハッシュ偏りを大幅に削減し、トラフィック分散の不均衡を是正している。これにより、大規模なGPUクラスタ(最大15,000 GPUを1つのPodに接続可能)においても効率的な通信を実現する。
- レール最適化ネットワーク (Tier 1): ホスト内のGPU間高速接続(NVLinkなど)を活用し、同一「レール」上のNICを同一のデュアルToRペアに接続することで、ラック内通信を最適化している。これにより、多くの学習ジョブが低遅延で最高性能を享受できる。
- 独立したフロントエンドネットワーク: 学習トラフィックを扱うバックエンドネットワークとは別に、管理、推論、ストレージなどのトラフィックを分離するための独立したフロントエンドネットワークを構築している。
論文中では運用上の知見や関連研究についても紹介されており、たとえば51.2Tbpsシングルチップスイッチを採用した理由としてマルチチップスイッチは長年の運用実績で3.77倍も重大障害が発生していることや、高スループット化に伴う冷却問題への対処など、さまざまな問題への検討・解決を試行したことに触れられている。
HPNはすでにAlibaba Cloud内の本番環境で運用されており、ToR由来の単一点障害は一度も起きておらず、HPN上でのLLM学習スループットは従来より14.9%高い性能を示すという。
興味のある方はぜひ公開されているPDFを見てほしい。