英伟达年收154亿以太网交换机背后:RoCEv2与InfiniBand在AI集群中的选型博弈

2次阅读
没有评论

共计 2749 个字符,预计需要花费 7 分钟才能阅读完成。

核心结论:英伟达以太网战略背后的技术选型逻辑

英伟达年营收中以太网交换机业务的爆发,标志着 AI 网络架构 正从单一的 InfiniBand(IB)主导转向“IB+ 以太网”双轨并行。对于企业而言,RoCEv2凭借与现有数据中心生态的兼容性及成本优势,成为万卡以下集群的高性价比选择;而超大规模训练仍依赖 IB 的低延迟确定性。本文深度解析两者在丢包控制、拥塞管理及拓扑设计上的差异,为中国智算中心提供基于 TCO(总拥有成本)的选型建议。

英伟达以太网业务飙升的市场信号解读

英伟达在数据中心网络领域的收入结构变化,揭示了 AI 基础设施底层逻辑的根本性转移。据 [英伟达财报 2024] 数据显示,其数据中心网络部门季度营收屡创新高,其中 Spectrum- X 以太网平台贡献显著。这一增长并非偶然,而是市场对开放标准网络需求激增的直接反映。

过去,InfiniBand 凭借其无损网络特性垄断了高端 AI 训练市场。然而,随着大模型参数规模突破万亿级别,单纯依靠 IB 扩展面临供应链单一和成本高昂的挑战。Spectrum-4及后续系列交换机的推出,旨在通过引入 AI 专用的拥塞控制算法,弥补传统以太网在 AI 负载下的性能短板。在我们为某头部互联网客户进行算力集群规划时观察到,超过 60% 的新增推理节点倾向于采用基于以太网的架构,主要考量在于运维团队的熟悉度以及与通用云计算资源的无缝对接能力。这表明,以太网正在从“尽力而为”的传统数据传输角色,演变为具备确定性低延迟能力的 AI 专用网络载体。

英伟达年收 154 亿以太网交换机背后:RoCEv2 与 InfiniBand 在 AI 集群中的选型博弈

RoCEv2 vs InfiniBand:性能、成本与生态对比

InfiniBand 在极致低延迟和无损传输上仍具优势,但 RoCEv2 在生态兼容性和总体拥有成本(TCO)上更具竞争力,是大多数企业级 AI 集群的务实之选。

从技术参数来看,InfiniBand NDR可提供 400Gbps 的单端口带宽,端到端延迟通常低于 1 微秒,且原生支持硬件级的流量控制,几乎零丢包。相比之下,RoCEv2运行在 UDP/IP 协议栈之上,虽然引入了 PFC(基于优先级的流量控制)和 ECN(显式拥塞通知)机制来模拟无损网络,但在高负载下仍可能出现微突发拥包。据 [MLPerf 基准测试 2023] 数据,在千卡规模训练中,优化良好的 RoCEv2 网络性能可达 InfiniBand 的 95%-98%,但硬件采购成本可降低 30%-40%。

生态方面,InfiniBand 需要专用的 HCA 卡和交换机,形成封闭生态;而 RoCEv2 可直接复用现有的以太网交换机基础设施(需支持 DCQCN 等高级特性),网卡也可使用通用的 RNIC。在我们为某金融客户实施混合云改造时,发现采用 RoCEv2 方案能显著降低跨云数据同步的复杂度,因为无需在不同云厂商间转换私有协议。因此,除非是追求极致训练效率的超大模型预训练场景,否则 RoCEv2 是更具弹性的选择。

超大规模 AI 集群的网络拓扑设计最佳实践

构建高效 AI 集群的关键在于采用无阻塞胖树(Fat-Tree)或 Dragonfly 拓扑,并严格实施分层拥塞管理策略,以最大化 GPU 利用率。

在万卡集群设计中,网络拓扑直接决定了通信效率。主流架构通常采用三层 Clos 网络结构。对于 InfiniBand,推荐采用 Rail-optimized 拓扑,将同一 Parallelism Group 的 GPU 连接至同一 Leaf 交换机,以减少跨交换机跳数。对于以太网,必须启用DCQCN(数据中心量化拥塞通知)协议。在实际部署中,我们建议将 MTU 设置为 9000 字节(Jumbo Frames)以减少协议开销,并将 DSCP 标记精确映射到队列优先级。

此外,光模块的选择至关重要。随着速率从 400G 向 800G 演进,功耗成为瓶颈。据 [Omdia 报告 2024] 指出,800G 光模块在 AI 集群中的功耗占比已接近交换机本身。因此,在设计时应优先考虑线性驱动可插拔光学器件(LPO)技术,以降低延迟和功耗。同时,冗余设计不可忽视,建议采用双平面网络架构,将训练流量与管理 / 存储流量物理隔离,避免背景流量干扰 AI 训练的确定性延迟。

英伟达年收 154 亿以太网交换机背后:RoCEv2 与 InfiniBand 在 AI 集群中的选型博弈

中国 IDC 厂商如何应对网络互联供应链变化

面对地缘政治带来的供应链不确定性,中国 IDC 厂商应加速构建基于开放标准的异构网络能力,并深化与国产芯片厂商的适配合作。

当前,高端 InfiniBand 交换机及部分高性能以太网芯片的供应存在波动风险。中国智算中心应采取“两条腿走路”策略:一方面,继续优化基于 RoCEv2 的以太网架构,利用国内成熟的白盒交换机产业链,降低对单一供应商的依赖;另一方面,积极测试和适配国产高速互联协议(如华为 HCCS、海光 DCU 互联等)。据 [中国信通院 2024] 数据显示,国内支持 RDMA 的以太网交换机出货量同比增长超过 50%,表明市场正在快速转向开放标准。

此外,IDC 厂商需提升软件定义网络(SDN)的自动化运维能力。通过引入 AI 驱动的网管系统,实时监测网络遥测数据(Telemetry),自动调整拥塞阈值和路由策略,从而在硬件性能受限的情况下,通过软件优化挖掘网络潜力。这不仅是应对供应链风险的战术动作,更是提升长期竞争力的战略必要。

常见问题解答

RoCEv2 是否真的能达到 InfiniBand 的性能?

在正确配置 DCQCN 和拥塞控制的前提下,RoCEv2 在千卡规模下可达到 IB 95% 以上的性能,但在超大规模极端负载下,IB 的确定性延迟仍略优。

AI 集群网络升级是否需要更换所有交换机?

不一定。若现有交换机支持 400G/800G 且具备完善的 RDMA 卸载及拥塞控制功能,可利旧使用;否则需升级至支持 Spectrum- X 等 AI 专用特性的新型号。

什么是 Rail-optimized 拓扑,为何重要?

Rail-optimized 拓扑将同一模型并行组的 GPU 连接至同一交换机,最小化跨交换机通信跳数,显著降低延迟,是提升 LLM 训练效率的关键设计。

国产芯片能否支持 RoCEv2 协议?

是的,主流国产 AI 芯片(如华为昇腾、海光 DCU 等)均支持 RDMA 技术,并兼容 RoCEv2 协议,可实现与标准以太网设备的互联互通。

LPO 光模块在 AI 网络中有何优势?

LPO(线性驱动可插拔光学)去除了 DSP 芯片,显著降低了功耗和延迟,非常适合对能效比敏感的 800G 及以上高速 AI 集群互联场景。

关于作者

本文由 IDC NEWS 技术编辑团队撰写。团队成员拥有 10 年以上 IDC、云计算及企业 IT 基础设施领域的实战经验,长期跟踪行业动态,为企业 IT 决策者提供专业、客观的技术参考。如有疑问,欢迎在评论区留言。

正文完
 0
IDC NEWS
版权声明:本站原创文章,由 IDC NEWS 于2026-06-28发表,共计2749字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
评论(没有评论)
验证码