当前几乎所有互联网流量都通过数据中心传输,再加上 ChatGPT 等生成式 AI 应用的火热,对算力提出了空前需求,全球的数据中心都在尽可能部署高性能的 GPU 和 CPU。
这也相应地对电力和能源提出了更高要求。据了解,与 AI 大模型单次交互消耗的电量可能相当于低亮度 LED 灯泡开 1 个小时。
AI 的能源消耗不仅包括用于为服务器供电的电力,还包括冷却数据中心所需的额外能源。平均来说,为了冷却系统,可能需要额外消耗这些设备正常电力 50% 的能源。
而随着 AI 和高性能计算的发展,数据中心的芯片、服务器和机架的配置变得越来越密集,这种高密集度需要更强大的冷却系统,来确保设备能在安全的温度范围内运行,以维持系统的性能和可靠性。
据了解,数据中心的冷却成本已成为其物理基础设施成本中增长最快的部分,年复合增长率达 16%。数据中心在维持高性能运行时,冷却成本增长速度超过现有能力。根据麻省理工学院林肯实验室的数据,到 2030 年,数据中心会消耗全球高达 21% 的电力供应。
为了解决 AI 的能耗问题,业界除了开发专门的 AI 定制芯片来提高能源利用效率,另一方面也采用更高效的冷却技术,以帮助数据中心最大限度地实现可持续性。
近期,一家名为 ZutaCore 的公司展示业界首款用于 NVIDIA GPU 的介电直接芯片液冷冷板。这是一种无水、直接到芯片、两相液体冷却系统,专为 AI 和高性能计算工作负载而设计。该公司已与英特尔、戴尔和威图等众多供应商合作,另有多家服务器制造商正在与 ZutaCore 合作,以完成英伟达 GPU 平台的认证和测试。
尽管传统的基于空气的冷却方法逐渐被淘汰,液态冷却技术为数据中心提供了新的可能性。但基于水的冷却方案会消耗大量的水资源,也面临着提高能效和降低环境影响的挑战。
ZutaCore 公司的“HyperCool”冷却解决方案不依赖于水作为冷却介质,使用的是一种特殊的介电液体。这种冷却方式直接将冷却液体接触到需要冷却的芯片上,与传统的空气冷却或间接液体冷却相比,可以更有效地吸收和移除热量。HyperCool 技术还能够回收和重新利用数据中心产生的热量,实现 100% 的热量回用。
下图展示了 HyperCool 系统的运作方式,以及如何将热能回收利用于学校、办公室和家庭中。
其中的 HyperCool Dielectric Cold Plate 是系统的核心部分,直接安装在需要冷却的芯片上。使用无水的介电液体,这种液体具有很好的散热性能且不导电,并具有极低的全球变暖潜值(GWP)和臭氧消耗潜值(ODP)。
当介电液体吸收了芯片产生的热量后,会变成热蒸汽。HyperCool Heat Rejection Unit 负责将吸收的热量从热蒸汽中排出。这个过程中介电液体会冷却下来并转换成液态,循环返回到冷板中继续吸收热量。
从热排单元中排出的热量可以通过设施水系统进行回收。回收的热量可以用于加热办公室和家庭或用于给学校的暖气系统提供热能,实现 100% 的可持续性。
这种直接对芯片的冷却解决方案更为高效,使用的能源和空间不到传统系统的一半。整个系统的设计旨在有效地将数据中心的废热回收利用,减少能源浪费,同时也减轻了对环境的影响。
通过采用这种高效的冷却技术,数据中心可以显著减少运营成本,特别是在冷却系统的维护和能源消耗方面,从而使总拥有成本降低 50%。
传统冷却技术可能因温度升高而导致性能下降或需要进行热管理从而限制性能。HyperCool 技术由于提供的冷却效率更高,数据中心可以安装更多的服务器和处理器,从而支持更高的工作负载而不会过热。通过有效控制温度,处理器能够以接近其设计上限的性能长时间运行,从而提高整体的计算输出。
这样不仅避免了水资源的消耗和潜在的泄漏风险,数据中心的计算性能也有望提升到原来的 10 倍。
值得一提的是,HyperCool 系统能够让运营商在几乎不改变现有基础设施的情况下进行升级,提高处理能力的同时也减少能源和空间使用。这有利于经常需要迅速扩展其计算能力的云服务提供商和大型企业。
另外,当前每个英伟达 H100 GPU 的功耗高达 700 W,这对于已经在控制热量、能耗和空间方面承压的数据中心来说是一个不小的挑战。据了解,HyperCool 可以将冷却能耗降低 80%,支持超过 1500W 的 GPU,同时将机架密度提高 300%。
总的来说,数据中心的冷却是确保硬件效率和延长设备寿命的关键方面。随着数据中心规模和计算需求的增加,高效的冷却解决方案正变得越来越重要。
行业人士都在关注能满足数据中心爆炸性增长的同时更具可持续性的解决方案,除了 HyperCool 提供的方法,国内也有像兰洋科技这样提供浸没式液冷散热技术的企业,能够为数据中心、PC 主机、新能源汽车、储能电池、5G 基站、投影仪和航空航天等领域提供高效节能的散热终端产品和技术服务。
通过持续提供优化的冷却,数据中心的硬件能够持续运行在较高性能水平,避免了因温度问题导致的性能波动,从而实现远超传统设施的计算能力,这对依赖高性能计算的应用(如人工智能和大数据分析)尤为关键。
HyperCool 等类似技术的引入,可能会改变数据中心设计和管理的方式,推动整个行业朝着更高效、更环保的方向发展。