進化を続けるコンピューター・ネットワークにおいて、プロトコルはデータ交換を管理する上で極めて重要な役割を果たしています。その基礎のひとつが、1980年代に導入された世界標準のOSI7層プロトコルです。コンピュータ間の通信を標準化するために設計されたこのプロトコルは、階層化されたネットワーク・モデルを通してその複雑さを展開します。ハードウェア中心の物理層からアプリケーション中心のアプリケーション層まで、各層がシームレスな通信に貢献しています。さらに深く掘り下げると、従来のTCP/IPからRDMAの領域への進化を探求し、高スループットと低レイテンシーに重点を置いた高性能コンピューティング(HPC)の要求に対応します。ネットワーク・アーキテクチャ、スイッチの役割、最適なパフォーマンスと費用対効果を追求するイーサネットとInfiniBandの興味深い選択などをご紹介します。この探検は、ネットワーク・テクノロジーのダイナミックな性質の証しであり、現代のデータセンターで増え続ける要求を満たすには適応性が鍵となります。
HPCにおけるOSIプロトコルとRDMAへの移行を理解する
プロトコルは、コンピュータ・ネットワーク内でのデータ交換のために確立された一連の規則、標準、または協定です。法的には、OSI(Open System Interconnection)7層プロトコルが国際標準となっています。1980年代に導入されたOSIプロトコルは、コンピュータ間の通信を標準化することを目的としており、7層のネットワークモデルを通じてオープンネットワークの要件に対応しています。
物理層は、ハードウェアの通信方法を管理し、インターフェースの種類や伝送速度など、物理デバイスの標準を確立し、ビットストリーム(0と1で表されるデータ)の伝送を容易にします。
データリンク層は主にフレームエンコーディングとエラー制御を管理します。物理層からのデータをフレームにカプセル化し、上位層に送信します。さらに、ネットワーク層からのデータを物理層へ送信するためのビットストリームに分解し、チェックサムによるエラー検出・訂正メカニズムを組み込むこともできます。
ネットワーク層はノード間に論理回路を作り、アドレス解決にIPを利用し(各ノードはIPアドレスを持つ)、パケットでデータを送信します。
トランスポート層は、2つのノード間のデータ転送の品質を監督し、正しい順序を保証し、損失、重複、輻輳制御などの問題を処理します。
セッション層は、ネットワーク機器のセッション接続を管理し、異なる機器間の通信を調整するためのセッション制御と同期を提供します。
プレゼンテーション層は、データフォーマットの変換と暗号化/復号化処理を管理し、異なるデバイス上のアプリケーションによる正しい解釈と処理を保証します。
アプリケーション層は、電子メール、ファイル転送、リモート・ログインなどのさまざまなアプリケーションを包含し、ユーザーに直接ネットワーク・サービスとアプリケーション・インターフェースを提供します。
これらの層は集合的にOSIの7層モデルを形成し、それぞれが特定の機能と責任を持ち、コンピュータ間の通信とデータ交換を促進します。
現実のネットワーク・プロトコルはOSIモデルから逸脱している可能性があり、現実的な要件やネットワーク・アーキテクチャに基づいて設計・実装されていることに注意することが重要です。
TCP/IPは、アプリケーション層、トランスポート層、ネットワーク層、データリンク層の4層に大別される様々なプロトコルで構成されるプロトコルスイートです。TCP/IPは7層プロトコルの最適化バージョンと考えられています。
高性能コンピューティング(HPC)とその高スループットと低レイテンシに対する要求の中で、TCP/IPはRDMA(Remote Direct Memory Access)に移行しました。TCP/IPには、遅延の発生や、複数のコンテキスト・スイッチや送信中のカプセル化にCPUが関与することによる大幅なCPUオーバーヘッドなどの欠点があります。
RDMAは、オペレーティング・システムのカーネルが関与することなく、ネットワーク・インターフェースを介してメモリ・データに直接アクセスすることを可能にする技術です。RDMAは高スループット、低レイテンシのネットワーク通信を可能にし、大規模な並列コンピューティングクラスターに適しています。RDMAはプロトコルスタック全体を規定しているわけではありませんが、パケットロスの最小化、高スループット、低レイテンシーなど、特定のトランスポートに厳しい要件を課しています。InfiniBand、ROCE(RDMA over Converged Ethernet)、iWARP(Internet Wide Area RDMA Protocol)などの変種は、イーサネットをベースとしたRDMA技術に対応しており、それぞれに技術的なニュアンスやコスト面での考慮点があります。
スパインリーフ・アーキテクチャと従来の3層ネットワークの比較
スイッチとルーターは、ネットワーク内の異なるレイヤーで動作する。スイッチはデータリンク層で機能し、デバイス識別にMACアドレスを利用し、パケット転送を実行します。多様なデバイス間の通信を容易にします。一方、ルーターはゲートウェイとも呼ばれ、ネットワーク層で動作し、IPアドレスを使用してさまざまなサブネットワークを接続します。
従来のデータセンターは、アクセスレイヤー、アグリゲーションレイヤー、コアレイヤーの3層アーキテクチャを採用することが多いです。アクセス層は通常、サーバーに直接接続され、一般的に利用されるアクセススイッチはトップ・オブ・ラック(TOR)スイッチです。アグリゲーション層は、アクセス層とコア層の中間的な役割を果たします。コア・スイッチはデータセンターに出入りするトラフィックを処理し、アグリゲーション層との接続を確立します。
しかし、従来の3層ネットワーク・アーキテクチャには顕著な欠点があり、それはクラウド・コンピューティングの進化とともに顕著になっています:
-
帯域幅の無駄:各アグリゲーション・スイッチ・グループはPOD(Point of Delivery)を管理し、各PODは独立したVLANネットワークを持っています。スパニングツリープロトコル(STP)を使用すると、VLANネットワークに対してアクティブなアグリゲーションスイッチが1つだけになり、他のスイッチがブロックされることがよくあります。これは、アグリゲーションレイヤーの水平方向のスケーラビリティを妨げます。
-
大きな障害領域:STPアルゴリズムにより、ネットワークトポロジーの変更にはコンバージェンスが必要であり、ネットワークが中断する可能性があります。
-
高いレイテンシー:データセンターが拡大するにつれ、東西トラフィックが増加し、大幅な遅延が発生します。3層アーキテクチャのサーバー間の通信は複数のスイッチを経由するため、コア・スイッチとアグリゲーション・スイッチのパフォーマンスをアップグレードするとコストが高くなります。
スパインリーフ・アーキテクチャーは、フラット化されたデザイン、低レイテンシー、高帯域幅など、特筆すべき利点を備えています。スパインリーフ・ネットワークでは、リーフ・スイッチが従来のアクセス・スイッチと同様の役割を果たし、スパイン・スイッチがコア・スイッチの役割を果たします。
リーフスイッチとスパインスイッチは、ECMP(Equal Cost Multi-Path)を使用して複数のパスを動的に選択します。リーフレイヤーのアクセスポートやアップリンクリンクにボトルネックがない場合、このアーキテクチャはノンブロッキング性能を実現します。ファブリック内の各リーフがすべてのスパインに接続されているため、1つのスパインに問題が発生しても、データセンターのスループット性能はわずかな低下で済みます。
NVIDIA SuperPODアーキテクチャーへの深入り
SuperPODとは、複数のコンピュートノードを相互接続することで、高スループット性能を実現するように設計されたサーバークラスタを指します。NVIDIA DGX A100 SuperPODを例にとると、推奨構成はQM8790スイッチを組み込んだもので、各ポートが200Gで動作する40ポートを提供します。
採用されたアーキテクチャは、ファットツリー(ノンブロッキング)構造に従っています。初期レイヤーでは、DGX A100サーバーが8つのインターフェイスを装備し、それぞれが8つのリーフスイッチの1つに接続します。SuperPODは20台のサーバーで構成され、SUを形成する。したがって、合計8台のSUサーバーが必要となります。セカンドレイヤーアーキテクチャでは、ネットワークはノンブロッキングでポートスピードは均一であるため、スパインスイッチのアップリンクポート数はリーフスイッチのダウンリンクポート数以上である必要があります。したがって、1SUは8台のリーフスイッチと5台のスパインスイッチに対応し、2SUは16台のリーフスイッチと10台のスパインスイッチに対応します。また、SUの数が6を超える場合は、コアレイヤスイッチを追加することを推奨します。
DGX A100 SuperPODの場合、コンピュートネットワークのサーバー対スイッチの比率は約1:1.17です(7台のSUに基づく)。しかし、ストレージとネットワーク管理の要件を考慮すると、DGX A100 SuperPODとDGX H100 SuperPODのサーバー対スイッチの比率は、それぞれおよそ1:1.34と1:0.50になります。
ポート数では、DGX H100の推奨構成は、SUあたり31台のサーバーを含む。DGX H100は、コンピュート用に4つのインターフェイスで設計されており、QM9700スイッチを利用し、各400Gの64ポートを提供します。
スイッチ・パフォーマンスに関しては、DGX H100 SuperPOD の推奨構成におけるQM9700は、Sharpテクノロジーを導入しています。このテクノロジーは、アグリゲーター・マネージャーを使用して物理トポロジーにストリーミング・アグリゲーション・ツリー(SAT)を構築します。ツリー内の複数のスイッチが並列計算を実行するため、レイテンシーが短縮され、ネットワーク性能が向上します。QM8700は最大2個のSATをサポートし、QM9700/9790+CX7は最大64個のSATをサポートします。ポート数の増加により、スイッチ数は削減されます。
スイッチの選択: イーサネット、InfiniBand、およびRoCEの比較
イーサネット・スイッチとInfiniBandスイッチの基本的な違いは、TCP/IPプロトコルとRDMA(Remote Direct Memory Access)の違いにあります。現在、イーサネット・スイッチは従来のデータセンターで多く採用されているのに対し、インフィニバンド・スイッチはストレージ・ネットワークやハイパフォーマンス・コンピューティング(HPC)環境で多く採用されています。イーサネット・スイッチとInfiniBandスイッチは、どちらも最大400Gの帯域幅を実現できます。
RoCE vs InfiniBand vs TCP/IP
重要な考慮事項:
-
高いスケーラビリティ: 3つのネットワークプロトコルはいずれも高いスケーラビリティを示すが、中でもInfiniBandは最も高いスケーラビリティを示します。1つのInfiniBandサブネットで数万ノードをサポートすることができ、比較的スケーラブルなアーキテクチャを提供し、InfiniBandルーターと比較して、事実上無制限のクラスタサイズを可能にします。
-
高性能: TCP/IPはCPU処理のオーバーヘッドとレイテンシーを追加するため、パフォーマンスが比較的低くなります。RDMAオーバーコンバージドイーサネット(RoCE)は、既存のイーサネットインフラを活用することで、データセンターの速度と効率を向上させます。しかし、InfiniBandは、スイッチド・ファブリックを使用してデータを1ビットずつシリアルに伝送することで、より高速で効率的な通信に優れています。
-
簡単な管理: RoCEとInfiniBandはTCP/IPよりも低レイテンシーで高性能ですが、一般にTCP/IPの方が導入と管理が容易です。デバイスとネットワークの接続にTCP/IPを使用するネットワーク管理者は、最小限の集中管理しか必要としません。
-
費用対効果: InfiniBandは、高価なIBスイッチ・ポートに依存してアプリケーションの大きな負荷を処理するため、予算が限られている企業にとっては、計算コストやメンテナンス・コストの上昇につながる可能性があります。これとは対照的に、イーサネット・スイッチを利用するRoCEとTCP/IPは、より費用対効果の高いソリューションです。
-
ネットワーク機器: RoCEとTCP/IPはデータ伝送にイーサネット・スイッチを利用するが、InfiniBandはアプリケーションの伝送に専用のIBスイッチを利用します。IBスイッチは通常、IBプロトコルをサポートする機器と相互接続する必要があるため、比較的閉鎖的で交換が難しいです。
最新のデータセンターでは、基礎となる相互接続に最大限の帯域幅と極めて低いレイテンシーが要求されます。このようなシナリオでは、従来のTCP/IPネットワークプロトコルは、CPU処理のオーバーヘッドと高いレイテンシをもたらし、不十分です。
RoCEとInfiniBandのどちらを選ぶかを決める企業にとって、固有の要件とコスト要因を慎重に検討することは不可欠すです。最高性能のネットワーク接続を優先する場合はInfiniBandが望ましいかもしれませんし、最適な性能、管理の容易さ、費用対効果を求める場合はデータセンターでRoCEを選ぶかもしれません。
FS InfiniBand & RoCEソリューション
FSには、RoCEまたはInfiniBandをサポートする豊富な製品があります。どちらを選択しても、これら2つのネットワーク接続オプションに基づくロスレス・ネットワーク・ソリューションを提供します。これらのソリューションにより、ユーザーはハイパフォーマンス・コンピューティング機能とロスレス・ネットワーキング環境を構築することができます。FSは、特定のアプリケーション・シナリオとユーザー・ニーズに基づいて最適なソリューションをカスタマイズすることに重点を置き、高帯域幅、低レイテンシ、高性能のデータ伝送を提供します。これにより、ネットワークのボトルネックを効果的に緩和し、ネットワーク全体のパフォーマンスを向上させ、ユーザーエクスペリエンスを向上させます。