2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

RDMAによるクラスタ性能の向上

Last updated at Posted at 2024-02-07

FSコミュニティで原文を読む

企業のデジタル化の要求により、新しいアプリケーションが継続的に出現し、実装されています。データが企業にとって極めて重要な資産となるにつれ、ハイパフォーマンス・コンピューティング、ビッグデータ分析、AI、さまざまなストレージ・アプリケーションの需要が急増しています。TCP/UDPのような従来のデータ伝送プロトコルは、このような新しい要件に適応する上で多くのボトルネックに遭遇しています。

RoCE技術の利点とエコシステムの発展

RDMA(リモート・ダイレクト・メモリー・アクセス)は、高性能ネットワーク通信技術であり、InfiniBandネットワーク標準の基本コンポーネントです。DMA(ダイレクト・メモリー・アクセス)は、CPUの介入なしにホスト・メモリーにデバイスが直接アクセスする技術です。RDMA技術は、オペレーティング・システム・カーネルをバイパスして、ネットワーク・インターフェイスを介した直接的なメモリ・データ・アクセスを容易にします。これにより、効率的で低レイテンシーのネットワーク通信が高いスループットで可能になり、特に大規模な並列コンピューティングクラスターに適しています。


トランスポート層を最適化し、ネットワーク・インターフェイス・カードの機能を活用することで、RDMAはアプリケーションがネットワーク・リンク・リソースをより有効に活用できるようにします。当初、RDMAはInfiniBandトランスポート・ネットワークに実装されましたが、需要の増加に対応するため、従来のイーサネットにも拡張されました。イーサネットベースのRDMA技術にはiWARPとRoCEがあり、RoCEはさらにRoCEv1とRoCEv2に分かれています。高価なInfiniBandとは対照的に、RoCEとiWARPはハードウェアコストを大幅に削減します。


RDMAがイーサネットネットワーク上で動作する場合、RoCE (RDMA over Converged Ethernet) として知られています。現在、高性能ネットワーク用の一般的なネットワーキングソリューションは、RoCE v2プロトコル(RDMA over Converged Ethernet)に依存しています。このプロトコルはイーサネットとRDMAを統合し、イーサネット・ネットワーク内の多様な展開シナリオで幅広いアプリケーションを見つけます。

socket-vs-rdma

TCP/IP方式とは対照的に、RDMAはカーネルバイパスとゼロコピー技術を採用し、待ち時間の短縮、CPU使用率の低下、メモリ帯域幅のボトルネックの軽減、高い帯域幅利用率の達成を実現します。RDMAはIOベースのチャネルを導入し、アプリケーションがRDMAデバイスを介してリモート仮想メモリに直接アクセスして読み書きできるようにします。

tcp-ip-vs-rdma-roce

 

RDMAテクノロジーは、システム・カーネルを回避して、アプリケーションとネットワークの間に専用のデータ・パスを確立します。このデータ経路を最適化することで、データ転送のためのCPUリソースを0%に減らすことができ、ASICチップが提供する高性能を活用できます。RDMAは効率的にデータをネットワーク経由でコンピュータのストレージ領域に直接転送し、オペレーティング・システムに影響を与えることなく、あるシステムから別のシステムのメモリにデータを迅速に転送することで、計算能力の需要を最小限に抑えます。

これにより、外部メモリのコピーとコンテキストの切り替えに関連するオーバーヘッドが解消され、メモリ帯域幅とCPUサイクルが解放されるため、アプリケーションシステムのパフォーマンスとクラスタ全体の効率が向上します。RDMA技術は、スーパーコンピューティングセンターやインターネット企業で広く採用され、成熟したアプリケーション・ネットワーク・エコシステムを確立しています。このプロジェクトにおける企業レベルの大規模データセンターへの統合は、技術エコシステムの新たな発展段階を意味します。

 

GPU Direct-RDMAによるAI/HPCアプリケーションの効率向上

従来のTCPネットワークは、パケット管理をCPU処理に大きく依存しており、利用可能な帯域幅を十分に活用できないことが多いです。その結果、AI環境では、RDMAが、特に大規模なクラスタトレーニングにおいて、不可欠なネットワークトランスポート技術として浮上しています。


RDMAテクノロジーは、CPUメモリ内のユーザー空間データの高性能ネットワーク送信を超えて拡張されます。また、複数のサーバーにまたがるGPUクラスター内のGPU転送も容易になります。ここで、HPC/AIパフォーマンスを最適化するための極めて重要なコンポーネントであるGPU Directテクノロジーが登場します。深層学習モデルの複雑さが増大し、計算データ量が急増していることを考慮すると、単一のマシンでは計算要件を満たすことができなくなりました。複数のマシンとGPUが関与する分散トレーニングが不可欠になっています。この状況では、複数のマシン間の通信が分散トレーニングの重要なパフォーマンス指標となり、GPUDirect RDMAテクノロジーがマシン間のGPU通信を高速化するのに役立つことが証明されています。


➢ GPU Direct RDMA: ネットワークカードのRoCE機能を活用することで、GPUクラスター内のサーバーノード間でのGPU間の高速メモリデータ交換が可能になります。


ネットワークの設計と実装に関して、NVIDIAはGPU Direct RDMAの機能をサポートすることでGPUクラスターのパフォーマンスを強化します。GPU Direct RDMAの技術的な実装は、以下の図で説明されています。

gpu-direct-rdma

GPUクラスターネットワーキングの領域では、ネットワークの遅延と帯域幅に対する要求の高まりが最前線に来ています。従来のネットワーク伝送では、GPUの並列処理能力が制限されることがあり、リソースの効率が低下することがありました。高帯域幅のデータ送信のための従来のルートでは、多くの場合、CPUメモリの関与が必要となり、GPUマルチノード通信中のメモリの読み取り/書き込み操作とCPU負荷の両方に関連するボトルネックが発生します。これらの課題に取り組むために、GPU Direct RDMAテクノロジは、ネットワークカードデバイスをGPUに公開することで直接的なアプローチを採用し、GPUメモリ空間間の直接リモート アクセスを容易にします。この革新的なアプローチにより、帯域幅と遅延の両方が大幅に向上し、GPUクラスターの操作効率が大幅に向上します。

 

データセンター・スイッチ向けロスレス・ネットワーク・ソリューション

roce-solution

 

スイッチ上でRoCEトラフィックをサポートするソリューションは、一般にロスレスイーサネットソリューションと呼ばれます。この包括的なソリューションには、効率的なネットワーク運用に不可欠な主要テクノロジーが含まれています:

➢ ECNテクノロジー: ECNは、IP 層とトランスポート層でトラフィック制御とエンドツーエンドの輻輳通知メカニズムを導入します。IPパケットヘッダーのDSフィールドを利用して、伝送パス上の輻輳状態を示します。ECN サポートを備えた端末デバイスは、パケットの内容に基づいて輻輳を評価し、送信方法を調整して輻輳の拡大を軽減できます。強化されたFast ECNテクノロジーは、デキュー時にデータパケットのECNフィールドをマークし、転送中のECNマーク付けの遅延を最小限に抑えます。これにより、受信サーバーはECNマークが付けられたデータパケットを迅速に受信できるようになり、送信レート調整の高速化が容易になります。


➢ PFCテクノロジー: PFCは、ホップごとの優先順位ベースのフロー制御を提供します。デバイスはパケットを転送するときに、優先度に基づいてパケットをスケジュールして転送し、パケットを対応するキューにマッピングします。特定の優先順位を持つパケットの送信レートが受信レートを超え、受信側で利用可能なデータバッファリングスペースが不十分になる場合、デバイスはPFC PAUSEフレームを前のホップのデバイスに送信します。PAUSEフレームを受信すると、前のホップデバイスはその優先順位のパケットの送信を停止し、PFC XONフレームを受信した後、または一定のエージングタイムが経過した後にのみトラフィックを再開します。PFCは、あるタイプのトラフィックの輻輳によって他のトラフィックタイプの通常の転送が中断されないことを保証し、同じリンク上のさまざまなパケットタイプに対する干渉のない動作を維持します。

 

RDMAおよびRoCE製品選択の合理化

結論として、ロスレス・イーサネットの導入から得た実践的な洞察を活用して、NVIDIAはECNを要となる輻輳制御テクノロジとして採用しました。ハードウェアで高速化されたFast ECNによって強化されたこのシステムは、効果的なフロー制御のための迅速な応答を保証します。ETSと独創的な物理キャッシュの最適化によって補完され、リソースのスケジューリングは独自のトラフィックモデルに合わせて微調整されます。その一方で、PFCテクノロジを組み込むと、ネットワーク・デッドロックの差し迫ったリスクによる潜在的な課題が生じます。比較評価では、ネットワークの信頼性を高め、輻輳パケット損失に対処する際のPFCフロー制御メカニズムの有効性が限られていることを強調し、同時に固有のリスクとパフォーマンスのボトルネックを明らかにします。


RDMAは、リモート データ転送の迅速化に重点を置き、最適なエンドツーエンドのネットワーク通信を実現する上で最も重要な役割を果たします。これには、ホスト側でのカーネル・バイパス、ネットワークカードでのトランスポート層のオフロード、およびネットワーク側の輻輳フロー制御の高度な融合が含まれます。その結果は、低遅延、高スループット、最小限のCPUオーバーヘッドという形で目に見えます。それにもかかわらず、現在のRDMA実装は、スケーラビリティの制限や構成と変更の複雑さなどの制約に取り組んでいます。


テクノロジーが進化するにつれて、RDMAとRoCE製品の選択という絶えず変化する状況をうまく乗り切り、進歩に常に目を光らせ、シームレスな統合と持続的な高性能ネットワーク・ソリューションの制限に対処することが重要です。


高性能RDMAネットワークを構築する場合、必要なRDMAアダプタや堅牢なサーバーだけでなく、高速光モジュール、スイッチ、光ケーブルなどの重要なコンポーネントが成功に不可欠です。この文脈において、FSの信頼できる高速データ伝送製品とソリューションの選択は非常に賞賛に値します。高速データ伝送ソリューションの主要プロバイダーとして、FSは、高性能スイッチ200/400/800G光モジュールスマートネットワークカードなど、低遅延で高速なデータ伝送の厳しい要求に適切に対応した幅広いトップティア製品を提供しています。


FSの製品とソリューションはさまざまな業界に広く導入されており、大規模科学コンピューティング、リアルタイムデータ分析、金融取引の厳しい低遅延の前提条件などの要求をシームレスに満たしています。FSは、高性能ネットワークを導入する際に、費用対効果と運用効率の調和のとれたバランスを実現するための推奨される選択肢です。

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?