2
0

InfiniBandネットワーク、HDR、スーパーコンピューティングにおけるIBアプリケーションの意義を探る

Posted at

InfiniBand(IB)は、InfiniBand Trade Association(IBTA)によって設立された最先端のコンピュータネットワーク通信規格です。高性能コンピューティング(HPC)に広く採用されているのは、ネットワーク伝送において卓越したスループット、帯域幅、低レイテンシーを実現できるためです。

ネットワークスイッチを介した相互接続であれ、InfiniBandはサーバからストレージ、ストレージからストレージへのデータ転送のための高性能ネットワークを容易にします。InfiniBandネットワークのスケーラビリティは、スイッチングネットワークによる水平的な拡張を可能にし、多様なネットワークニーズに応えます。科学計算、人工知能(AI)、クラウドデータセンターの急速な進歩の中で、InfiniBandはエンドツーエンドの高性能ネットワーキングを実現するHPCスーパーコンピューティングアプリケーションでますます支持されています。

スーパーコンピュータとHPCデータセンターにおけるInfiniBandの普及

2015年6月、InfiniBandは世界で最も強力なスーパーコンピューターのトップ500リストの51.8%を占め、前年比15.8%の大幅な成長を示しました。

2022年6月のトップ500リストにおいて、InfiniBandネットワークは、スーパーコンピュータのインターコネクトデバイスの中で再びトップの座を獲得し、前回のリストと比較して数値的にも性能的にも優位性を示しました。主な傾向は以下の通り:

    • InfiniBandベースのスーパーコンピューターが189システムで大幅にリードしています。

    • InfiniBandベースのスーパーコンピューターが59台でトップ100システムを独占しています。

    • NVIDIA GPUおよびネットワーキング製品、特にMellanox HDR Quantum QM87xxスイッチとBlueField DPUは、スーパーコンピュータの3分の2以上で主要な相互接続としての地位を確立しています。

従来のHPCアプリケーションにとどまらず、InfiniBandネットワークはエンタープライズクラスのデータセンターやパブリッククラウドでも幅広く利用されています。例えば、エンタープライズ向けスーパーコンピュータの代表格であるNVIDIA SeleneやMicrosoftのAzureパブリッククラウドは、InfiniBandネットワークを活用して卓越したビジネスパフォーマンスを実現しています。

2023年11月に発表された最新のトップ500リストでも、InfiniBandは首位を維持し、その継続的な成長を裏付けています。トップ500でInfiniBandが高く評価されているのは、極めて重要な役割を果たすそのパフォーマンス上の利点に起因しています。

InfiniBandネットワークの利点

InfiniBandテクノロジーは、高性能コンピューティング(HPC)の将来を見据えた標準として位置づけられており、スーパーコンピューターやストレージ、さらにはLANネットワークにおけるHPC接続において高い評価を受けています。InfiniBandには、簡素化された管理、高い帯域幅、完全なCPUオフロード、超低遅延、クラスターのスケーラビリティと柔軟性、品質サービス(QoS)、SHARPサポートなど、さまざまな利点があります。

簡単なネットワーク管理

InfiniBandは、ソフトウェア定義ネットワーキング(SDN)向けに特別に設計された先駆的なネットワークアーキテクチャを表しており、サブネットマネージャーによって監督されています。サブネットマネージャーは、ローカルサブネットの設定とシームレスな動作の確保を担当しています。トラフィックを管理するために、すべてのチャネルアダプタとスイッチには、サブネットマネージャーと協調するためのサブネット管理エージェント(SMA)の実装が義務付けられています。各サブネットには、リンクが確立または切断された場合の初期設定や再構成のために少なくとも1つのサブネットマネージャーが必要です。アービトレーションメカニズムが使用され、マスターサブネットマネージャーが指定され、他のサブネットマネージャーは待機モードで動作します。待機モードでは、各サブネットマネージャーはバックアップのトポロジ情報を保持し、サブネットの動作状態を検証します。プライマリサブネットマネージャーの障害が発生した場合、待機中のサブネットマネージャーが制御を引き継ぎ、中断のないサブネット管理を保証します。

より高い帯域幅

InfiniBandの誕生以来、そのネットワークデータレートはイーサネットを常に上回ってきました。これは、高パフォーマンスコンピューティングでのサーバー間接続において、高い帯域幅を要求するためです。2014年の初期段階では、主流のInfiniBandの速度は40Gb/s QDRおよび56Gb/s FDRでした。現在、100Gb/s EDRや200Gb/s HDRなどのより高速なInfiniBandの速度が、世界中の多くのスーパーコンピューターで広く採用されています。最新のOpenAIツールであるChatGPTの導入により、企業は高性能コンピューティング(HPC)システム内に、InfiniBand NDRスイッチや光ファイバー接続ケーブルなどの400Gb/s NDRデータレートを備えた最先端のInfiniBandネットワーキング製品を導入することを検討しています。

InfiniBandの各速度タイプの略称は以下のとおりです:

      • SDR - シングルデータレート、8Gbps。

      • DDR - ダブルデータレート、10Gbps/16Gbps。

      • QDR - クアッドデータレート、40Gbps/32Gbps。

      • FDR - フォーティーン データ レート、56Gbps。

      • EDR - 拡張データレート、100Gbps。

      • HDR - ハイダイナミックレンジ、200Gbps。

      • NDR - 次世代データレート、400Gbps。

      • XDR - エクストリームデータレート、800Gbps。

効率的なCPUオフロード

コンピューティングパフォーマンスを強化するための極めて重要なテクノロジは CPU オフロードであり、InfiniBandネットワークアーキテクチャは、最小限のCPUリソースでデータ転送を容易にします:

      • 完全なトランスポート層プロトコルスタックのハードウェアオフロード。

      • カーネルバイパス、ゼロコピー。

      • RDMA(Remote Direct Memory Access)は、CPUの介入なしに、あるサーバーのメモリから別のサーバーのメモリにデータを直接書き込むプロセスです。

GPUDirect技術を利用することも選択肢としてあります。これにより、GPUメモリ内のデータに直接アクセスし、GPUメモリから他のノードへのデータ転送を容易にすることができます。この機能により、人工知能(AI)、ディープラーニングのトレーニング、機械学習などの計算アプリケーションのパフォーマンスが向上します。

低いレイテンシー

InfiniBandとイーサネットのレイテンシーの対比は、主に2つの主要な要素に分けることができます。まず、スイッチレベルでは、ネットワークトランスポートモデルにおいてレイヤー2デバイスとして動作するイーサネットスイッチは、通常、MACテーブルのルックアップアドレッシングとストアアンドフォワードメカニズムを使用します(一部の製品ではInfiniBandのカットスルー技術を組み込む場合もあります)。Ethernetスイッチには、IP、MPLS、QinQなどの複雑なサービスの組み込みがあり、処理時間が延長され、レイテンシーの測定値はしばしばマイクロ秒(カットスルーサポートは200nsを超える場合もあります)になります。一方、InfiniBandスイッチはレイヤー2の処理を簡素化し、転送パス情報には16ビットのLIDのみを使用します。さらに、カットスルー技術を使用して転送遅延を100ns未満に大幅に削減し、イーサネットスイッチの速度を上回ります。

ネットワークインターフェースカード(NIC)のレベルでは、先述のように、RDMA技術によってNICがメッセージの転送のためにCPUを経由する必要がなくなります。この高速化により、カプセル化およびデカプセル化中のメッセージ処理の遅延が最小限に抑えられます。一般的に、InfiniBand NICでは、送信と受信のレイテンシー(書き込み、送信)は600nsであり、イーサネットを使用したTCP UDPアプリケーションの送信と受信のレイテンシーは通常10us程度です。これにより、InfiniBandとイーサネットの間には10倍以上のレイテンシーの差が生じます。

スケーラビリティと柔軟性

InfiniBandネットワークの重要な利点の1つは、単一のサブネット内に最大48,000ノードを展開できる能力であり、広範なレイヤー2ネットワークを形成します。さらに、InfiniBandネットワークはARPなどのブロードキャストメカニズムを回避し、ブロードキャストストームや余分な帯域幅の浪費を避けることができます。複数のInfiniBandサブネットの接続は、ルーターやスイッチを介して実現可能であり、さまざまなネットワークトポロジーをサポートするための技術の柔軟性を示しています。

小規模な場合、2層のファットツリートポロジーが推奨されます。一方、大規模な場合には、3層のファットツリーネットワークトポロジーを選択することができます。特定のスケールを超える場合、コスト効果の高いドラゴンフライ+トポロジーを採用することで、さらなる拡張性を向上させることができます。

サービス品質(QoS)のサポート

異なるアプリケーションが異なる優先度の要件を持つ同じサブネット上で共存するInfiniBandネットワークを管理する際には、品質サービス(Quality of Service, QoS)の提供が重要な関心事となります。QoSは、異なるアプリケーション、ユーザー、またはデータフローに合わせた異なる優先度のサービスを提供する能力を指します。InfiniBandのコンテキストでは、高優先度のアプリケーションは特定のポートキューに割り当てられ、これらのキュー内のメッセージが優先的に処理されるようにします。

InfiniBandは、Virtual Lanes(VLs)を実装することでQoSを実現しています。Virtual Lanesは、共通の物理リンクを共有する独立した論理的な通信リンクです。各VLは、VL15として指定される管理チャネルを含め、最大15の標準的な仮想レーンをサポートする能力を持っています。このアプローチにより、優先度に基づいたトラフィックの効果的な分離が可能となり、InfiniBandネットワーク内で高優先度のアプリケーションの優先伝送が実現されます。

安定性と回復力

理想的なシナリオでは、ネットワークは安定しており、障害がない状態で動作します。しかし、長期間運用されるネットワークの現実には、時折障害が発生します。これらの課題に対処し、迅速な回復を確保するために、InfiniBandはSelf-Healing Networkingと呼ばれるメカニズムを採用しています。

NVIDIA Mellanox InfiniBandのソリューションは、InfiniBandスイッチ、NIC、およびMellanoxケーブルなどのハードウェア要素を含み、リンクの障害からの迅速な回復を実現するために自己修復ネットワークを活用しています。このハードウェアベースの機能により、リンクの障害を驚異的な1ミリ秒で復旧させることができ、通常の回復時間を5000倍も上回る高速な回復が可能です。

最適化された負荷分散

ネットワーク利用率の向上は、高性能データセンターにおける重要な要件です。InfiniBandネットワークでは、負荷分散の実装による効果的なアプローチの1つが挙げられます。

負荷分散は、複数の利用可能なポート間でトラフィックを均等に分散させるためのルーティング戦略です。適応型ルーティングは、トラフィックをスイッチポート間で均等に分散させるための重要な機能です。この機能はスイッチ上でハードウェアによってサポートされており、適応型ルーティングマネージャーの管理下にあります。

適応型ルーティングがアクティブな場合、スイッチ上のキューマネージャーは、すべてのGROUP EXITポート上のトラフィックを監視し、各キューの負荷を均等化し、未使用のポートにトラフィックを誘導します。適応型ルーティングは、負荷を動的にバランスさせることで、ネットワークの混雑を防止し、ネットワーク帯域幅の利用を最適化します。

ネットワーク内コンピューティング技術 - SHARP

InfiniBandスイッチには、Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)と呼ばれるネットワークコンピューティング技術も搭載されています。SHARPは、スイッチハードウェアに統合されたソフトウェアであり、中央管理されるソフトウェアパッケージです。

SHARPは、CPUやGPUから集約通信タスクをスイッチにオフロードすることで、これらの通信を最適化します。ノード間での冗長なデータ転送を防ぎ、ネットワークを通過する必要のあるデータの量を減らすことができます。その結果、SHARPは特にAIや機械学習のようなMPIアプリケーションにおいて、高速計算の性能を大幅に向上させます。

多様なネットワークトポロジー

InfiniBandは、Fat Tree、Torus、Dragonfly+、Hypercube、およびHyperXなどのさまざまなネットワークトポロジをサポートしており、ネットワークのスケーリング、総所有コスト(TCO)の削減、最小限のレイテンシ、および伝送距離の延長など、異なるニーズに対応しています。

InfiniBandは、非常に優れた技術的な利点を活かして、高性能ネットワークアーキテクチャを大幅に効率化し、多階層のアーキテクチャの階層から生じるレイテンシーを軽減します。この能力により、重要なコンピューティングノードのアクセス帯域幅をシームレスに拡張するための堅牢なサポートが提供されます。InfiniBandネットワークは、高い帯域幅、低レイテンシ、およびEthernetとの互換性により、さまざまなシナリオでの適用範囲が広がっています。

InfiniBand HDR 製品ソリューションの紹介

クライアント側の要求が高まる中、100Gb/sのEDRは市場から徐々に姿を消しています。一方、NDRのデータレートは現在では高すぎると見なされていますが、HDRはHDR100(100G)およびHDR200(200G)を提供する柔軟性から、広く採用されています。

InfiniBand HDRスイッチ

NVIDIAは、2つのタイプのInfiniBand HDRスイッチを提供しています。1つ目はHDR CS8500モジュラーチャシススイッチで、29Uのスイッチで最大800のHDR 200Gb/sポートを提供します。各200Gポートは2X100Gに分割することができ、最大1600のHDR100(100Gb/s)ポートをサポートします。2つ目はQM87xxシリーズの固定スイッチで、1Uパネルに40の200G QSFP56ポートが統合されています。これらのポートは最大80のHDR 100Gポートに分割することができ、100G HDRネットワークカードに接続することが可能です。同時に、各ポートは逆方向にもEDRレートをサポートしており、100G EDR NICカードに接続することができます。重要な点として、単一の200G HDRポートは速度を100Gに減速してEDRネットワークカードに接続することしかできず、2X100Gに分割して2つのEDRネットワークカードに接続することはできません。

200G HDR QM87xxスイッチには、MQM8700-HS2FMQM8790-HS2Fの2つのバリアントがあります。これらのモデル間の唯一の違いは、管理方法です。QM8700は、アウトオブバンド管理をサポートする管理ポートを備えていますが、QM8790は管理のためにNVIDIA Unified Fabric Manager(UFMR)プラットフォームを必要とします。

QM8700とQM8790の両方のスイッチタイプでは、それぞれ2つのエアフローオプションが提供されています。その中で、MQM8790-HS2FはP2C(電源からケーブルへ)のエアフローを採用しており、ファンモジュールに青いマークで識別できます。もし色のマークを覚えていない場合は、手をスイッチの空気取り入れ口と排気口の前に置くことで風流の方向を判断することもできます。MQM8790-HS2RはC2P(ケーブルから電源へ)のエアフローを採用し、ファンモジュールには赤いマークがあります。QM87xxシリーズのスイッチモデルの詳細は以下の通りです:

スイッチモデル ポート インターフェースの種類 リンク速度 ラックユニット 管理
MQM8790-HS2F 40 QSFP56 200Gb/s 1RU インバンド/アウトバンド
MQM8790-HS2R 40 QSFP56 200Gb/s 1RU インバンド

CQM8700とQM8790スイッチは、一般的に2つの接続アプリケーションに使用されます。1つは、200G HDRネットワークカードとの接続で、200Gから200GのAOC/DACケーブルを使用して直接接続することができます。もう1つの一般的なアプリケーションは、100G HDRネットワークカードと接続することで、物理的な200G(4X50G)QSFP56ポートを2つの仮想的な100G(2X50G)ポートに分割するために200Gから2X100Gケーブルを使用する必要があります。分割後、ポートのシンボルはx/yからx/Y/zに変わります。ここで、「x/Y」は分割前のポートの元のシンボルを示し、「z」は単一レーンポート(1、2)の番号を示します。各サブ物理ポートは個別のポートとして扱われます。

InfiniBand HDRネットワークインターフェイスカード(NIC)

HDRスイッチに比べて、HDRネットワークインターフェースカード(NIC)にはさまざまな種類があります。速度に関しては、2つのオプションがあります:HDR100とHDRです。

HDR100 NICカードは、100Gb/sの伝送速度をサポートしており、2つのHDR100ポートは200G HDRから2X100G HDR100ケーブルを使用してHDRスイッチに接続することができます。一方、100G EDRネットワークアダプタとは異なり、HDR100 NICカードの100Gポートは4X25G NRZ伝送と2X50G PAM4伝送の両方をサポートしています。

200G HDRネットワークカードは、200Gの伝送速度をサポートし、200Gのダイレクトケーブルを使用してスイッチに直接接続することができます。

また、各速度のネットワークカードは、ビジネス要件に基づいてシングルポート、デュアルポート、およびPCIeタイプを選択することができます。一般的に使用されるIB HDRネットワークカードのモデルは以下の通りです:

NICモデル ポート InfiniBandデータレート対応 イーサネットデータレート対応 インターフェース ホストインターフェース[PCIe]
MCX653105A-ECAT シングルポート SDR/DDR/QDR FDR/EDR/HDR 1/10/25/40/50/200Gb/s QSFP56 PCIe 3.0/4.0 x16
MCX653106A-ECAT デュアルポート SDR/DDR/QDR FDR/EDR/HDR100 1/10/25/40/50/100Gb/s QSFP56 PCIe 3.0/4.0 x16
MCX653105A-ECAT シングルポート SDR/DDR/QDR FDR/EDR/HDR100 1/10/25/40/50/100Gb/s QSFP56 PCIe 3.0/4.0 x16
MCX653106A-HDAT デュアルポート SDR/DDR/QDR FDR/EDR/HDR 1/10/25/40/50/200Gb/s QSFP56 PCIe 3.0/4.0 x16

HDR InfiniBandネットワークアーキテクチャはシンプルですが、さまざまなハードウェアオプションを提供しています。100Gb/sの速度には、100G EDRおよび100G HDR100のソリューションがあります。200Gb/sの速度には、HDRおよび200G NDR200のオプションが含まれています。さまざまなアプリケーションで使用されるスイッチ、ネットワークカード、およびアクセサリには重要な違いがあります。InfiniBandの高性能HDRおよびEDRスイッチ、SmartNICカード、およびNADDOD/Mellanox/Cisco/HPEのAOC&DAC&光モジュール製品ポートフォリオソリューションは、データセンター、ハイパフォーマンスコンピューティング、エッジコンピューティング、人工知能などのアプリケーションシナリオにおいて、より有利で価値のある光ネットワーク製品と包括的なソリューションを提供します。これにより、低コストで優れたパフォーマンスを持つ顧客のビジネス加速能力が大幅に向上します。

InfiniBandとイーサネット、ファイバチャネル、オムニパスの違いとは?

InfiniBand vs イーサネット

      • 区別する技術: InfiniBandとEthernetは、データ転送のための重要な通信技術として、それぞれ異なるアプリケーションに対応しています。

      • 歴史的な速度:InfiniBandの歴史的なデータ転送速度は、InfiniBand SDR 10Gb/sから始まり、イーサネットの初期の速度を上回りました。

      • 現在の主導性: InfiniBandは、100G EDRや200G HDRといったネットワーク速度で主導権を握っており、今後は400G NDRや800G XDRなどのより高速な速度に向かっています。

      • 厳格なレイテンシー要件: InfiniBandは、ほぼゼロに近いレイテンシーに達する厳しい要件に準拠しています。

      • 理想的なアプリケーション: InfiniBandは、迅速で正確なデータ処理を要求するアプリケーションで優れた性能を発揮し、大容量データの解析、機械学習、ディープラーニングのトレーニング、推論、対話型AI、予測、予測などが主要な活用分野となっています。

      • イーサネットの役割: イーサネットは比較的遅いですが、高い信頼性を特徴としており、一貫した信頼性のあるデータ転送が必要なLANネットワークアプリケーションに適しています。

      • 速度と信頼性の相違: これらの技術の主な違いは、速度と信頼性にあります。HPCネットワーキングでは、迅速なデータ転送が必要なアプリケーションではInfiniBandが優先されますが、イーサネットの信頼性により、LANネットワークでの一貫したデータ転送に適しています。

InfiniBand vs ファイバチャネル

      • ストレージエリアネットワーク(SAN)におけるファイバチャネル:ファイバチャネルは、主にストレージエリアネットワーク(SAN)で使用され、データセンター環境内のサーバー、ストレージデバイス、またはクライアントノード間の高速データ転送に特化しています。

      • セキュアチャネル技術:ファイバチャネルは、専用かつ安全なチャネル技術を採用しており、迅速かつ信頼性の高いデータ転送を保証しています。

      • ストレージソリューションにおける柔軟性:ファイバチャネルは、ビジネスのストレージソリューションで広く使用される信頼性の高い拡張性のある技術として活用されています。

      • データ転送の種類の区別:InfiniBandとファイバチャネルの主な違いは、それぞれの技術が通常どのようなデータ転送を支援するかという点にあります。

      • 最適な選択肢:イーサネットはLAN環境でのクライアントとサーバーの接続に適しており、ファイバチャネルはSAN内のストレージアプリケーションで優れた性能を発揮します。一方、InfiniBandはイーエーネット内のCPUメモリコンポーネントを接続し、クラスタリングやI/Oコントローラへの接続をサポートする革新的な技術として登場しています。

InfiniBand vs オムニパス

    • データセンターネットワークの進化:NVIDIAがInfiniBand 400G NDRソリューションを導入したにもかかわらず、一部のユーザーは100G EDRソリューションを使用し続けています。Omni-PathとInfiniBandの両方は、100Gb/sの速度で動作する高性能データセンターネットワークにおいて一般的な選択肢です。

    • ネットワーク構造の相違点:両技術は似たような性能を提供しますが、Omni-PathとInfiniBandのネットワーク構造は大きく異なります。例えば、InfiniBandを使用した400ノードのクラスターは、NVIDIA Quantum 8000シリーズのスイッチ15台と特定のケーブルのみが必要です。一方、Omni-Pathでは24台のスイッチとより多くのアクティブ光ケーブルが必要とされます。

    • InfiniBand EDRソリューションの利点:InfiniBand EDRソリューションは、Omni-Pathに比べて機器コスト、運用および保守コスト、総合的な電力消費量の面で顕著な利点を示しています。これにより、InfiniBandはより環境に優しい選択肢となっています。

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0