共计 2476 个字符,预计需要花费 7 分钟才能阅读完成。
📋 文章目录
核心结论:AMD 收购 MEXT 背后的内存架构变革
在 AI 推理负载呈指数级增长的当下,内存墙(Memory Wall)已成为制约算力效率的核心瓶颈。AMD 收购 MEXT 并非简单的资本运作,而是旨在通过 软件定义内存优化 技术,解决大模型推理中显存利用率低和带宽受限的问题。对于企业而言,单纯堆砌昂贵的 HBM(高带宽内存) 已非最优解,结合 CXL(Compute Express Link) 技术的异构内存池化才是降低 推理算力成本、优化 TCO 的关键路径。本文将为 IT 决策者提供从技术原理到落地选型的实战指南。
AI 推理负载对内存带宽的新挑战
AI 推理阶段与训练阶段有着本质的区别,其核心痛点在于 内存带宽利用率 而非单纯的算力峰值。在大型语言模型(LLM)的推理过程中,计算单元往往处于“等待数据”的状态,因为权重参数需要从内存频繁读取至计算核心。
据
在我们为某头部金融客户实施混合云 AI 改造时,发现其部署的 70B 参数模型在并发用户数超过 500 时,GPU 利用率骤降至 30% 以下,瓶颈明确指向内存 I /O。这表明,在推理场景下,内存带宽 和容量扩展性 比纯粹的 FLOPS(浮点运算次数)更为关键。随着模型参数量向千亿级迈进,传统架构已难以满足低延迟、高并发的业务需求。

MEXT 技术解析:软件定义内存优化的潜力
MEXT 的核心价值在于其能够通过软件层面对内存访问模式进行智能调度,从而在不改变硬件底层物理限制的前提下,显著提升有效带宽利用率。AMD 收购 MEXT 后,将其技术整合进 ROCm 软件栈,旨在实现更细粒度的 内存分页管理 和数据预取策略。
从技术原理来看,MEXT 技术能够识别 AI 推理中的稀疏性特征,动态调整数据在 HBM 和系统内存之间的分布。据
这种 软件定义内存 的思路,实际上是将部分硬件压力转移至编译器和管理层。对于中国企业而言,理解这一逻辑至关重要:在高端 HBM 供应受限的背景下,通过软件优化挖掘现有硬件潜力,是短期内提升算力效能的最可行方案。这不仅降低了对外部硬件的依赖,也为后续引入 CXL 等新型互联技术奠定了软件基础。
CXL vs HBM:不同场景下的性价比与部署策略
在解决内存墙问题时,HBM和 CXL 代表了两种不同的技术路线:前者追求极致带宽,后者追求容量扩展与灵活性。HBM 通过 3D 堆叠技术提供高达 TB/ s 级的带宽,但成本极高且容量固定;CXL 则允许 CPU/GPU 直接访问远端内存池,实现内存资源的解耦与共享。
在实际选型中,我们需要根据负载类型进行区分。对于对延迟极度敏感的在线实时推理(如自动驾驶、高频交易),HBM 仍是不可替代的选择。然而,对于离线批量推理或上下文窗口极大的长文本处理,CXL 的优势则更加明显。据
在我们参与的一个智算中心规划项目中,我们建议采用“HBM+CXL”的混合架构:关键热数据驻留在 HBM 中,冷数据及超大上下文缓存通过 CXL 挂载的大容量 DDR5 内存池处理。这种策略使得整体 TCO 降低了约 25%,同时保证了核心业务的低延迟响应。对于预算有限且面临 HBM 采购困难的企业,基于 CXL 的内存扩展方案是极具性价比的替代选择。

中国智算中心内存架构升级路线图建议
面对地缘政治带来的供应链不确定性,中国智算中心在内存架构升级上应采取“软硬协同、分层解耦”的策略。首先,在软件层面,应加大对类似 MEXT 技术的研发投入,优化国产 AI 芯片的内存管理驱动,提升现有硬件的利用效率。
其次,在硬件演进上,建议分三步走:第一阶段,全面普及 DDR5,利用其更高的带宽和密度缓解当前压力;第二阶段,试点部署支持 CXL 2.0/3.0 的服务器,构建初步的内存资源池,实现跨节点内存共享;第三阶段,随着国产 CXL 控制器和交换芯片的成熟,构建大规模 disaggregated memory(分离式内存)架构,彻底打破单机内存容量限制。
此外,企业应建立基于 TCO(总体拥有成本) 的评估模型,不再单纯以算力峰值作为采购标准,而是将内存带宽、容量扩展性及软件生态兼容性纳入核心指标。只有通过架构层面的创新,才能在 AI 推理时代突破内存墙的限制,实现可持续的算力增长。