はじめに
AIの開発には膨大な演算処理が必要で、これを実現するために大量のGPUを搭載したスーパーコンピュータが必要になります。
オラクル社が発表したスーパーコンピュータ・クラスター「Zettascale10」は、OCI (Oracle Cloud Infrastructure) の複数のデータセンターにまたがっており、最大80万台のNVIDIA GPUを統合できるということです。
このような超大規模なスーパーコンピュータ・クラスターのネットワークを支えているのが「Oracle Acceleron」で使われている技術になります。
Oracle Acceleronの特徴
下記に記載している技術によって、OCIのネットワークの「性能」、「安定性」、「セキュリティ」を向上させています。
特にAI計算ではテールレイテンシと呼ばれるごく一部の遅い通信が問題になることがあるため、高速であることに加え、全体的な安定性を向上させる仕組みとなっています。
専用ファブリック・ネットワーク・アーキテクチャ
ネットワークを用途ごとに分離します。
AI用のネットワークを分離することで、他の通信の影響を受けずに安定した通信が可能になります。
通常のTCP/IPではなく、RoCE v2というプロトコルを使うことにより、CPUを介さずにネットワーク間通信をおこなうことができます。
マルチプレーン・ネットワーキング
独立した複数のネットワーク経路を用意することで、1つの経路で障害が発生した場合も、他の経路に即座に切り替えることで通信の遅延を防ぎ、安定した通信を実現します。
また、複数の経路を利用することでスループットが向上し、経路を増やすことでスケールします。
非仲介型設計
通信をおこなう際にスイッチなど経路間の中継箇所を減らし、最も直線的な経路で通信をおこなえるようにしています。
経路間の中継箇所が少なくなることで、性能劣化の原因を減らすことができ、レイテンシや安定性を向上させています。
中継箇所が少なくなることで機能が低下するのではなく、これまで中継箇所で担ってきた機能は、後述するコンバージドNICが担当します。
コンバージドNIC
NICのハードウェアにクラウド制御機能(ネットワーク経路の管理や後述するZPRといったセキュリティの管理など)を統合したものになります。
これまで別の機器がおこなってきた機能をコンバージドNICが担当します。
別の機器までの通信が不要になり、別機器の処理遅延の影響を受けず、高速で安定した通信が可能になります。
統合はされていますが、NICの部分(ユーザ側)とクラウド制御機能(OCI側)はハードウェアによって強固に分離されています。
Zero-Trust Packet Routing (ZPR)
ゼロトラストという名前のとおり、拒否ベースの仕組みになります。
従来の仕組みと異なるのは、通信許可の判断をIPアドレスでチェックするのではなく、割り当てた「属性」でチェックします。
例えば
『属性「App-1」をもつインスタンスのみが、属性「DB-1」にアクセス可能』
といったポリシーを設定することができます。
例えIPアドレスが変わったとしても、このポリシーは有効なままです。
IPアドレスという数字/記号ではなく、意味のある属性名で設定するため、ミスがおこりにくい仕組みと言えるかもしれません。


