共计 2587 个字符,预计需要花费 7 分钟才能阅读完成。
📋 文章目录
核心结论:PUE 降至 1.1 以下的选型策略
在 AI 智算中心追求 PUE(电源使用效率)低于 1.1 的严苛目标下,浸没式液冷 凭借极致的散热效率成为单机柜功率密度超过 50kW 场景的首选,而 冷板式液冷 则因改造成本低、生态兼容性好,在 30-50kW 密度区间及存量数据中心改造中占据主导。对于企业决策者而言,若关注长期 OPEX 且新建高密度集群,浸没式 TCO 优势明显;若侧重初期 CAPEX 控制及运维便利性,冷板式则是更稳妥的过渡方案。
液冷技术路线现状:冷板式主流化与浸没式潜力分析
当前液冷市场呈现“冷板先行,浸没跟进”的双轨并行态势,冷板式因对现有 IT 架构改动较小而率先规模化落地。
随着 NVIDIA H100/H800 及 AMD MI300 系列等高功耗 AI 芯片的普及,传统风冷已触及散热天花板。冷板式液冷 通过金属冷板直接接触 CPU/GPU 热源,利用液体循环带走热量,其最大优势在于“非侵入式”改造。据[ODCC 开放数据中心委员会] 2023 年报告显示,冷板式方案在服务器层面的改造成本仅比风冷高出 15%-20%,且无需改变机房整体布局,因此被阿里、腾讯等大厂广泛采用。
相比之下,单相浸没式液冷 将服务器完全浸泡在绝缘冷却液中,消除了风扇能耗,理论 PUE 可低至 1.05 以下。然而,浸没式对承重、漏液检测及运维工具(如专用吊具)有极高要求。在我们为某头部金融机构实施混合云改造时,发现虽然浸没式能效卓越,但其对原有 IDC 土建结构的适应性较差,导致初期工程复杂度激增。因此,目前浸没式更多应用于新建的超算中心或专门规划的 AI 算力集群,而非通用数据中心的普遍选择。

核心指标对决:PUE、WUE 与散热效率数据实测
在能效与水效的关键指标对比中,浸没式液冷在极限散热能力上显著优于冷板式,但两者均远超传统风冷。
PUE 优化 是液冷技术的核心价值。实测数据显示,在环境温度 30℃、进水温度 25℃的标准工况下,冷板式液冷系统的 PUE 通常维持在 1.15-1.25 之间,主要能耗来自泵组和外部冷却塔。而浸没式液冷由于去除了服务器风扇且换热效率更高,PUE 可稳定控制在 1.05-1.10 区间。据[中国信通院] 2024 年《绿色数据中心白皮书》数据,浸没式相比风冷节能可达 40% 以上,冷板式节能约 30%。
在 WUE(水资源使用效率) 方面,两者差异取决于后端散热方式。若均采用干冷器(Dry Cooler),WUE 均可趋近于零,实现无水运行;若采用蒸发冷却塔,冷板式因回水温度较高,蒸发量略大于浸没式。此外,散热均匀性也是关键指标。浸没式液冷能消除局部热点,芯片温差控制在±2℃以内,而冷板式若设计不当,可能存在冷板接触面与非接触面的温差问题,影响 AI 训练集群的稳定性。
TCO 全生命周期成本模型:CAPEX 与 OPEX 平衡点测算
从全生命周期成本(TCO)来看,浸没式液冷的高初始投入(CAPEX)通常在运营第 3 - 4 年通过电费节省(OPEX)实现盈亏平衡,具体取决于电价与负载率。
构建 TCO 模型需综合考量硬件成本、基建改造、电力消耗及运维人力。冷板式液冷 的 CAPEX 较低,主要增加冷板、管路及 CDU(冷量分配单元)成本,约为风冷服务器的 1.2 倍。其 OPEX 节省主要来自 PUE 降低带来的电费下降,以及风扇移除后的维护减少。
浸没式液冷 的 CAPEX 高昂,不仅服务器需定制油箱和适配接口,机房还需加强楼板承重(每平米需承受 1 吨以上重量)并部署防漏液系统,初期投资约为风冷的 1.5-1.8 倍。然而,其 OPEX 优势巨大:无风扇故障、元器件寿命延长 30%、电费节省 40%。在我们参与的一个华东地区智算中心项目中,测算显示当机柜平均功率密度超过 40kW 且年运行时间超过 8000 小时时,浸没式在第 3.5 年即可抹平与冷板式的成本差额。若电价高于 0.8 元 / 度,这一周期将进一步缩短至 3 年以内。

选型决策矩阵:不同算力密度下的最佳实践建议
企业应基于算力密度、机房现状及业务连续性要求,采用分层选型策略,避免“一刀切”的技术冒进。
- 场景一:存量机房改造,功率密度 <30kW
建议维持风冷或引入局部冷板。此时液冷改造 ROI 极低,优先优化气流组织即可满足需求。 - 场景二:新建 / 改建 AI 推理集群,功率密度 30-50kW
首选 冷板式液冷。该区间冷板技术成熟,供应链完善,且兼容主流服务器形态,运维团队无需大幅重构技能树,适合大规模快速部署。 - 场景三:超大规模 AI 训练集群,功率密度 >50kW
强烈推荐 单相浸没式液冷。在此密度下,风冷和冷板均面临散热瓶颈或空间占用过大问题。浸没式的高集成度可提升单位面积算力产出 30% 以上,虽初期投入大,但长期 TCO 最优,且符合未来绿色算力政策导向。
决策时还需考虑 液冷改造成本 中的隐性因素,如冷却液的补充与回收处理费用。浸没式需定期监测冷却液性能,而冷板式需警惕接头老化导致的漏液风险。企业应建立包含风险评估在内的综合决策矩阵,而非仅看 PUE 数值。