1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

HPC(高性能コンピューティング)向けインテリジェント・ロスレス・イーサネット・ネットワーク

Last updated at Posted at 2024-02-07

FSコミュニティで原文を読む

現在、データセンターは計算能力のハブへと変貌を遂げ、その中に収容される計算クラスタの規模が絶えず拡大しています。コンピューティング・ノード間の高性能相互接続ネットワークに対するニーズが高まっているのは、これらのコンピューティング・ノードをリンクするネットワークに対する期待性能がエスカレートしていることへの直接的な対応するものです。データセンター・ネットワーキングの統合は、コンピューティングとネットワーキングの深い融合に向かう一般的な傾向を反映し、シームレスにデータセンターのコンピューティング・パワーに不可欠なコンポーネントとなっています。

ネットワーキング・インフラに対する高性能コンピューティング・ワークロードの要求の増大

5G、ビッグデータ、モノのインターネット(IoT)、人工知能(AI)といった革命的なテクノロジーが社会のさまざまな側面に浸透するにつれ、インテリジェントなデジタル中心社会への軌跡は、今後20~30年にわたって避けられないものとなっています。データセンターのコンピューティング能力が強力な原動力として台頭し、リソース規模への重点からコンピューティング能力規模への移行が進んでいます。業界は、データセンター内の高性能コンピューティングを促進する上でネットワークが極めて重要な役割を果たす、コンピューティング・パワー・センターの概念を広く受け入れています。ネットワーク性能の向上は、データセンターのコンピューティングパワーのエネルギー効率を高める上で極めて重要な要素です。

業界は、コンピューティング能力を強化するために、多方面で絶え間ない進化を遂げています。シングルコアチップ技術の進歩は、3nmでボトルネックに達しました。演算能力を増強するためにマルチコアの積層が追求されているが、コア数の増加に伴い、単位演算能力あたりの消費電力が顕著に急増します。コンピューティング・ユニット技術の進化は限界に近づいており、18カ月ごとに性能が倍増するムーアの法則は枯渇に近づいています。高性能コンピューティング(HPC)は、特にコンピューティング・クラスターの規模がPスケールからEスケールに拡大するにつれて、増大するコンピューティング・パワーへの需要を満たすために不可欠となっています。この移行に伴い、相互接続ネットワークの性能はますます高くなる必要があり、計算とネットワーキングの深い統合における明確な傾向を示しています。

高性能コンピューティング(HPC)には、シミュレーション、モデリング、レンダリングなど、標準的なワークステーションの能力を超える複雑な科学的コンピューティングの課題に取り組むために、集約されたコンピューティングパワーを活用することが含まれます。コンピューティングパワーに対する需要がPスケールからEスケールへと急増するにつれて、コンピューティングクラスターの規模も大きくなり、相互接続ネットワークの性能に対する要求も高まっています。計算とネットワーキングの共生関係がより顕著になります。

HPCは、次の3つの典型的なシナリオにおいて、さまざまなネットワーク・パフォーマンス要件をもたらします:

  • 疎結合コンピューティングのシナリオ: 金融リスク評価やリモートセンシングなど、計算ノード間の相互依存性が低いシナリオでは、ネットワーク性能に対する要求は比較的控えめです。

  • タイト・カップリングのシナリオ: 計算ノード間の高い協調依存性、計算の同期化、迅速な情報伝達は、電磁気シミュレーションや流体力学のような密結合シナリオを特徴づけます。このようなシナリオでは、ネットワークの低遅延が要求され、低遅延ネットワークが必要となります。

  • データ集約型コンピューティングのシナリオ: 天気予報や遺伝子配列などのデータ集約型のシナリオでは、コンピューティング・ノードが大量のデータを処理し、重要な中間データを生成するため、ネットワーク遅延に関する特定の要件を伴う高スループットのネットワークが不可欠です。

要約すると、高性能コンピューティング(HPC)は、ネットワークに高スループットと低レイテンシという厳しい要求を課しています。このような要求を満たすため、業界ではTCPプロトコルの代用としてリモートダイレクトメモリアクセス(RDMA)を採用し、待ち時間を短縮してサーバーのCPU使用率を最小限に抑えるのが一般的です。その利点にもかかわらず、RDMAはネットワークのパケットロスに敏感であるため、ロスレス・ネットワークの重要性が強調されています。

高性能コンピューティング・ネットワークの進化

従来のデータセンターネットワークは、歴史的にイーサネット技術に基づくマルチホップ対称型アーキテクチャを採用し、伝送にはTCP/IPプロトコルスタックに依存してきました。しかし、30年以上にわたる開発にもかかわらず、従来のTCP/IPネットワーク固有の技術的特性により、高性能コンピューティング(HPC)の要求を満たすには適していません。RDMA(リモート・ダイレクト・メモリー・アクセス)技術が、HPCネットワークに適したプロトコルとしてTCP/IPに徐々に取って代わるという大きな変化が起きています。さらに、RDMAのネットワーク層プロトコルの選択は、InfiniBand(IB)プロトコルをベースとした高価なロスレスネットワークから、イーサネットをベースとしたインテリジェントなロスレスネットワークへと進化しています。FSの技術エキスパートが、これらの技術的な変遷と進歩の背後にある理由を解明します。

TCPからRDMAへ

従来のデータセンターでは、イーサネット技術とTCP/IPプロトコル・スタックが、マルチホップ対称型ネットワーク・アーキテクチャを構築するための標準でした。しかし、TCP/IPネットワークは、次の2つの主な制限により、高性能コンピューティングの要求には不十分なものとなっています:

  • レイテンシーの問題: TCP/IPプロトコル・スタックでは、パケット受信/送信時にカーネル内で複数のコンテキスト・スイッチが行われるため、数マイクロ秒のレイテンシが発生します。このレイテンシは5~10マイクロ秒であり、マイクロ秒レベルのシステムではボトルネックとなり、AIデータ処理や分散SSDストレージなどのタスクに影響を与えます。

  • CPU使用率: レイテンシーの問題だけでなく、TCP/IPネットワークでは、プロトコルスタック内の複数のメモリコピーにホストCPUを関与させる必要があります。ネットワークの規模や帯域幅が大きくなると、CPUのスケジューリング負担が増大し、CPU負荷が持続的に高くなります。1ビットのデータ送信は1HzのCPU周波数を消費するという一般的な理解では、25Gを超えるネットワーク帯域幅(全負荷時)は、CPU容量のかなりの部分を必要とします。

こうした課題に対処するため、RDMA機能がサーバー側に導入されました。ダイレクトメモリアクセス技術であるRDMAは、オペレーティングシステムを介さずにコンピュータのメモリ間で直接データ転送を行い、時間のかかるプロセッサ操作を回避します。このアプローチは、高帯域幅、低レイテンシ、低リソース利用を実現します。

IBからRoCEへ

RDMAのカーネルバイパスメカニズムは、下図に示すように、アプリケーションとネットワークカード間でデータの直接読み書きを可能にします。これはTCP/IPの制限を回避し、プロトコルスタックの待ち時間をほぼ1マイクロ秒に短縮します。RDMAのゼロコピー・メカニズムにより、受信側は送信側のメモリから直接データを読み取ることができるため、CPUの負担が大幅に軽減され、CPU効率が向上します。これと比較すると、40GbpsのTCP/IPフローはすべてのCPUリソースを飽和させる可能性がありますが、40GbpsのRDMAではCPU使用率が100%から5%に低下し、ネットワークレイテンシはミリ秒から10マイクロ秒以下に減少します。

hpc

現在、RDMAネットワーク層プロトコルには、InfiniBand、iWARP(Internet Wide Area RDMA Protocol)、RoCE(RDMA over Converged Ethernet)の3つのオプションがあります。

  • InfiniBand: RDMAのために特別に設計されたInfiniBandは、ハードウェアレベルでロスレスネットワーキングを保証し、高スループットと低レイテンシーを提供します。しかし、そのクローズドなアーキテクチャは、相互運用性の課題とベンダーロックインのリスクをもたらします。

  • iWARP: このプロトコルはTCP上でRDMAを可能にし、特別なネットワークカードを利用するが、TCPプロトコルの制限により性能上の利点は失われます。

  • RoCE: イーサネット上でのリモートメモリアクセスを可能にするRoCEは、RDMA技術をイーサネットに応用したものです。標準的なイーサネットスイッチでRDMAをサポートするため、RoCEは特別なネットワークカードしか必要としません。そして、RoCEv1とRoCEv2の2つのバージョンが存在します。ネットワーク層のプロトコルであるRoCEv2は、ルーティング機能を実現し、異なるブロードキャストドメインのホスト間のアクセスを可能にします。

RoCEの利点にもかかわらず、パケットロスに敏感であるため、ロスレスイーサネットのサポートが必要です。HPCネットワークにおけるこのような進化は、性能、効率、相互運用性の向上を追求し続けていることを示しています。

結論

データセンターとハイパフォーマンス・コンピューティングに対する要求が高まる中、RDMA技術は、高性能で低レイテンシのデータ転送を促進する上で、依然として極めて重要な役割を担っています。InfiniBand技術とRDMA対応イーサネット技術のどちらを選択するかは、ユーザーとベンダーの双方が特定の要件と実用的なニーズを慎重に検討する必要があります。スーパーコンピューティングの分野では、InfiniBandテクノロジーは幅広いアプリケーションと確立されたエコシステムを誇っています。一方、RoCEとiWARPは、イーサネット環境内の高性能コンピューティングとストレージ・シナリオにより適していることが証明されています。

FSは、ネットワーキング、データセンター、テレコムの顧客に通信および高速ネットワーク・システム・ソリューションを提供するプロフェッショナル・プロバイダーです。NVIDIA® InfiniBandスイッチ100G/200G/400G/800G InfiniBandトランシーバー、NVIDIA® InfiniBandアダプタを活用して、InfiniBandとロスレス・イーサネット(RoCE)に基づく一連のソリューションを提供します。これらのソリューションは、さまざまなアプリケーション要件に応え、ユーザーがビジネスを加速し、パフォーマンスを向上できるようにします。詳細については、公式FS.COMをご覧ください。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?