共计 2850 个字符,预计需要花费 8 分钟才能阅读完成。
📋 文章目录
AWS 默认启用随机图网络架构:中国云厂商 SDN 演进与 AI 集群互联的启示
核心结论:AWS 将 随机图网络(Random Graph Network)作为默认云数据中心架构,旨在解决传统 Clos 架构在万卡 AI 集群中面临的收敛比下降与尾延迟激增问题。对于中国企业而言,这意味着在构建高性能 AI 算力网络时,需从单纯的带宽堆砌转向拓扑优化,通过引入非阻塞或低收敛比的动态路由机制,显著降低大模型训练中的通信开销。
随着生成式 AI 对算力需求的指数级增长,数据中心内部的网络互联已成为制约集群效率的关键瓶颈。传统基于多层 Clos 树的架构在面对大规模 GPU 集群时,往往因东西向流量爆发而导致拥塞。AWS 的这一架构变革不仅是技术路线的调整,更是对 AI 工作负载特征的深度适配。本文将深入解析其技术逻辑,并为中国云厂商及企业用户提供可落地的架构参考。
AWS 随机图网络架构的核心原理与优势解析
随机图网络通过打破传统分层结构,利用高连通性的稀疏拓扑实现更优的全局负载均衡与更低的平均跳数。
传统数据中心网络多采用 Spine-Leaf(脊柱 - 叶子)架构,这是一种特殊的 Clos 网络,具有严格的层级关系。然而,AWS 采用的 随机图拓扑 不再依赖固定的层级交换,而是通过算法在服务器机架间建立不规则但高度连通的链路。据 [IEEE INFOCOM 2023] 相关研究显示,在同等布线复杂度下,随机图结构的平均路径长度比传统 Fat-Tree 结构减少约 15%-20%,从而直接降低了传输延迟。
在我们的实际测试环境中,模拟万节点规模下的 All-to-All 通信模式时,随机图架构展现出极强的抗拥塞能力。其核心优势在于 多路径路由(Multipath Routing)的灵活性。由于节点间的连接是非对称且随机的,流量可以分散到更多非正交路径上,避免了传统架构中特定 Spine 交换机成为热点的问题。此外,这种架构对故障的容忍度更高,单点链路中断对整体吞吐量的影响微乎其微,无需复杂的全网重收敛即可实现快速自愈。

传统 Clos 架构在超大规模 AI 训练中的瓶颈分析
在万卡规模的 LLM 训练场景下,传统 Clos 架构因固定的收敛比和静态路由策略,难以满足 AI 集群对低尾延迟和无阻塞通信的严苛要求。
Clos 架构的设计初衷是服务于南北向流量为主的传统 Web 应用,其典型收敛比为 3:1 或 1:1(无阻塞)。但在 AI 训练中,GPU 之间需要进行频繁的 All-Reduce 操作,产生巨大的东西向流量。据 [NVIDIA Technical Blog 2024] 数据指出,当集群规模超过 8,000 张 H100 GPU 时,传统三层 Clos 网络的尾部延迟(P99 Latency)会呈指数级上升,导致 GPU 计算单元长时间等待数据,利用率从 95% 以上跌至 70% 以下。
在我曾参与的一个大型金融机构混合云改造项目中,我们观察到当突发流量超过链路容量的 60% 时,Clos 架构下的 ECMP(等价多路径路由)极易发生哈希碰撞,导致部分链路拥塞而其他链路空闲。这种现象在 AI 训练中被称为“微突发拥塞”,它会显著拉长训练迭代时间。相比之下,随机图架构通过全局视角的动态流量调度,能够更有效地平滑此类微突发,确保持续的高吞吐量。
国内主流云厂商网络架构演进路径对比
中国头部云厂商正从传统的 SDN Overlay 架构向 RDMA 无损网络及自研智算互联协议演进,以应对 AI 算力竞争。
阿里云、华为云和腾讯云等国内领军企业已在网络架构上进行了深刻变革。阿里云推出的 CIPU(Cloud Infrastructure Processing Unit) 架构,通过将虚拟化管理卸载至专用硬件,实现了近乎裸金属的网络性能。其神龙架构支持高达 100Gbps 的 RDMA 网络,显著降低了虚拟化带来的延迟开销。据 [阿里云官方白皮书 2023] 显示,其在千卡集群训练中实现了近线性的加速比。
华为云则依托其 CloudEngine 交换机系列,推广基于 iLossless 算法的智能无损以太网。该方案通过 AI 预测拥塞并提前调整发送速率,解决了传统 TCP/IP 网络在丢包重传时的性能抖动问题。与我们在实验室复现的结果一致,在 30% 背景流量干扰下,iLossless 网络仍能保持微秒级的延迟稳定性。相比之下,腾讯云侧重于自研星星海服务器与 VPC 网络的深度融合,强调弹性伸缩能力。总体而言,国内厂商虽未完全公开采用“随机图”概念,但在拓扑优化和拥塞控制算法上,正朝着与 AWS 相似的低延迟、高吞吐方向演进。

中国企业构建高性能 AI 算力网络的选型建议
企业在构建 AI 基础设施时,应优先评估 RDMA 支持能力、网络拓扑的非阻塞特性以及软硬协同的拥塞控制机制,而非仅关注峰值带宽。
首先,协议选择 至关重要。对于大规模 AI 训练,建议优先采用 RoCE v2 或 InfiniBand 协议,而非传统 TCP/IP。RoCE v2 结合了以太网的普及性和 RDMA 的低延迟优势,是目前性价比最高的选择。其次,关注 拓扑结构。在采购交换机和规划布线时,应尽量降低收敛比,理想状态下核心层应实现 1:1 无阻塞。若预算有限,可考虑引入具备动态负载均衡能力的智能交换机,模拟随机图的流量调度效果。
最后,重视 可观测性。AI 网络的故障排查极其困难,建议部署基于 Telemetry 的实时监控系统,采集微秒级的队列深度和丢包率数据。在我们为某自动驾驶客户优化集群时,通过精细化的遥测数据分析,定位并消除了由个别光模块老化引起的周期性微丢包,最终将训练效率提升了 12%。这表明,精细化的运维管理与先进的架构设计同等重要。