なぜ今ESUNなのか
生成AIの普及に伴い、データセンターではGPUを大量に連携させる「スケールアップ」の需要が急増しています。従来、この領域ではNVIDIAのNVLinkが圧倒的な存在感を示してきました。NVLinkはGPU内での1.8 TB/sという超高帯域を実現する専有技術で、性能面では文句なしです。
しかし、専有技術であるがゆえに、ベンダーロックインの問題がつきまといます。NVIDIAのGPUを使い続ける限りは良いのですが、AMDやIntelのアクセラレータを混在させたい場合、あるいは将来的に別のベンダーに乗り換えたい場合に柔軟性が制限されます。
ハイパースケーラーはこの問題を重く見ていたようで、MicrosoftやMeta、OpenAI、Oracleといった大手がESUNに参画しています。100万プロセッサ規模のクラスタ構築が現実的になりつつある中、ネットワーク経費がチップ予算の15〜20%に達するという試算もあり、オープン標準によるコスト削減への期待は高いです。

ESUNが解決しようとしている技術課題
ESUNプロジェクトでは、イーサネットをベースに広帯域かつ低遅延を実現するため、5つの技術領域に注力しています。
L2/L3フレーミングでは、AIヘッダをイーサネット上でカプセル化する技術を標準化します。既存のイーサネットインフラを活用しつつ、AI固有のトラフィック特性に対応することを目指しています。
エラーリカバリは、パフォーマンスを損なうことなくビットエラーを検出・修正する機構です。長距離光通信が必要なスケールアウト配置における信頼性確保に重要です。
効率的なヘッダーは、回線効率の改善を目的としています。スケールアップネットワークでは密結合されたGPU間の通信が頻繁に行われるため、ヘッダのオーバーヘッド最小化が性能に直結します。
ロスレストランスポートは、ネットワーク輻輳による性能低下を防ぐ仕組みです。Priority-Based Flow Control(PFC)、Link Level Recovery(LLR)、Credit-Based Flow Control(CBFC)といった標準化されたメカニズムを活用します。
単一ホップおよびマルチホップトポロジでは、耐障害性を備えたネットワークトポロジを実現します。スケールアップネットワークでは、通常100個程度のGPUが直接接続され、すべてのアクセラレータが互いのメモリに瞬時にアクセスできるワンホップネットワークが構成されます。
3つの知っておくべきポイント
自分がこの技術動向を追う中で、特に重要だと感じたポイントを3つ挙げます。
1. スケールアップとスケールアウトの違いを理解する
AIネットワークには3つのスケーリング方法があります。スケールアップは単一ラック内での接続で、約100個のGPUを直接接続するワンホップネットワーク。スケールアウトは複数のスケールアップラックを接続し、単一データセンター内の数千〜数万のGPUを連携させます。スケールアクロスは複数のデータセンター施設にまたがる接続です。
ESUNが対象とするのはスケールアップ領域で、従来NVLinkやUALinkといった専有技術が支配していた分野です。スケールアウト領域では既にイーサネットが広く使われていますが、スケールアップではより高い帯域幅と低遅延が求められるため、専有技術が優位でした。
ESUNは、イーサネットの相互運用性というメリットを保ちながら、スケールアップに必要な性能要件を満たそうとしています。
2. 主要ベンダーの動きをウォッチする
Broadcomは、ESUNの基盤となるScale-Up Ethernet(SUE)仕様を開発してきており、Tomahawk 6(102.4 Tbpsスイッチ)やThor Ultra(800G NIC)といったシリコンを既に出荷しています。Tomahawk 6は3nmプロセスで製造され、200 Gbpsのチャネル帯域幅と64×800GbEの柔軟なポート構成をサポートしています。
Aristaは7700R4シリーズのDistributed Etherlink Switch(DES)を提供しており、論理的な単一ホップアーキテクチャを物理的な2層または3層のリーフスパイン構成で実現します。単純な2層構成で4,600以上の800GbEホストをサポートできるとのこと。
AMDは次世代Instinct MI450シリーズをベースにした「Helios」ラックスケールプラットフォームを展開しており、OCP Open Rack仕様に基づいています。最大260 TB/sのスケールアップ相互接続帯域幅と43 TB/sのイーサネットベーススケールアウト帯域幅を提供するとされています。
一方、NVIDIAはNVLink Fusionを通じてパートナーエコシステムを拡大しつつ、専有技術の価値を維持する戦略をとっています。MediaTek、Marvell、Alchipなど複数のASICパートナーへの供給を開始しており、統合エコシステムの優位性を活かす姿勢です。
3. Ultra Ethernet Consortium(UEC)との棲み分け
ESUNと並んで、Ultra Ethernet Consortium(UEC)も注目すべき動きです。UECはAIおよびHPCワークロード向けにイーサネットを強化するイニシアティブで、UEC Specification 1.0ではUltra Ethernet Transport(UET)などを定義しています。
ESUNとUECの関係は補完的です。UECはより広いスケール(スケールアウト)にフォーカスし、複数のスイッチレイヤーおよび数万のエンドポイントをサポートする設計を目指しています。ESUNはスケールアップドメインに特化し、単一スイッチレイヤーおよび最大1024ポートに限定されます。
また、AMDが率いるUALink Consortiumも存在します。UALinkはメモリセマンティクスを重視したスケールアップファブリックプロトコルで、ロード・ストア・アトミック操作をサポートしています。最新の業界コンセンサスでは、UALinkはノード内(単一サーバエンクロージャ内)の相互接続として機能し、ESUNはラック間のスケールアップファブリック標準として機能するという分担モデルが提案されています。
今後の展望
市場アナリストの予測では、ESUNへの採用は2025〜2026年に加速するとされています。ハイパースケーラーがギガスケールの「AIスーパーファクトリー」建設に向けた投資を拡大する中、オープン標準による複数ベンダー対応のインセンティブは高まるでしょう。
ただし、NVIDIAの統合エコシステム(GPU、スイッチ、NIC、DPUのシームレス統合)は、特定のワークロードにおいて継続的な優位性を持つ可能性があります。NVIDIAのGPUクラスタを構築するなら、NVLinkの性能は依然として魅力的です。
個人的には、ESUNの登場によって「NVIDIAか、それ以外か」という二択ではなく、ワークロードや予算に応じた柔軟な選択肢が生まれることが重要だと考えています。AIインフラストラクチャの民主化という観点で、オープン標準の動きには注目しておくべきでしょう。
AIシステムを設計・運用するエンジニアとして、スケールアップネットワークの技術動向は今後ますます重要になってきます。ESUNの仕様がどこまで成熟するか、実際のベンチマーク結果はどうか、引き続きウォッチしていきたいですね。













