用于人工智能训练和推理的服务器所使用的加速器和处理器具有很高的热设计功耗(TDP)1。考虑到散热器尺寸、服务器气流和能效等因素,通过风冷方式对这些芯片进行冷却变得越来越不切实际,因此不得不转而采用液冷进行冷却。液冷服务器具有诸多优势,包括能够提升加速器的可靠性和性能、提高能效、减少用水量和降低噪音。
AI 服务器的液冷方式主要分为两类:冷板式液冷和浸没式液冷。它们在本文我们将探讨的散热生态系统方面有些细微差异。对于在部署液冷服务器方面缺乏经验的数据中心运营商和 IT 经理,需要了解以下几个问题:
• 如何让冷水流入、热水流出?
• 什么是 CDU?我是否需要 CDU?
• 选择合适的液冷散热架构需要采取哪些步骤?
液冷生态系统涉及三个要素(即服务器内部的热捕获、CDU 类型和将热量排至室外环境的方法)。CDU 是一种用于将 IT 流体回路与制冷系统其余部分隔离的系统,且必须具备五大功能(即温度控制、流量控制、压力控制、流体处理、热交换和隔离)。如表1 所示,常见的液冷架构有六种,它们各有优缺点,以及适用的部署场景。

因篇幅限制,仅展示部分,更多重要内容、核心观点,请下载报告。