随着数据与计算量的指数级增长,大量的计算能力需要海量服务器来支撑,而受限于数据中心建设面积和环保规定,增加单机柜功率密度成为调和不断增长的算力需求和有限的数据中心承载能力的关键解决方案.相关数据表示,2020年全球数据中心单机柜平均功率将达到16.5kW, 较之于2008年已经增长了175%. 据预测,随着数据中心算力飞速提升(单颗CPU奔着400W,单GPU奔着700W乃至上千W的单部件功耗),高功率单机柜将迅速普及,预计2025年,全球数据中心单机柜平均功率有望达到25kW.
大量数据吞吐和运算使得作为人工智能、大数据等新兴技术“大脑”的数据中心面临着前所未有的能耗和散热挑战:一方面,服务器等IT设备的计算、存储的功耗非常庞大,另一方面,用于冷却数据中心IT设备的功耗也在迅速增长. 根据统计,2019年中国数据中心能耗中,约有43%是用于IT设备的散热,基本与45%的IT设备自身的能耗持平.可见减少散热的功耗来控制数据中心运营成本,减少能源消耗,从而建设绿色数据中心已势在必行.
在此背景下,应用液冷技术和液冷服务器等设备的液冷数据中心应运而生,为数据中心的散热冷却提供了新的解决思路.液冷是指使用液体取代空气作为冷媒,为发热部件进行换热,带走热量的技术.大量数据吞吐和运算使得作为人工智能、大数据等新兴技术“大脑”的数据中心面临着前所未有的能耗和散热挑战.
单颗芯片的热功耗已经达到了风冷处理器的极限350W~400W.英伟达SXM最新GPU甚至达到了700W,有一度奔着1000W的趋势在发展.
数据中心是能耗大户,2015年我国数据中心能耗高达1000亿千瓦时,降低PUE对于节能减排也将起着很大作用.
比如阿里巴巴千岛湖数据中心采用湖水进行自然冷却,这使得其年平均PUE低于1.3,最低的时候可以达到1.17.据测算,阿里巴巴千岛湖数据中心90%的时间都可以单纯依靠湖水制冷,其制冷能耗降低80%,和目前国内平均水平相比,全年可节电千万度,碳减排一万多吨标煤.
就在今年的11/24日,重达1300吨的海底数据中心核心装备“海底数据舱”在海南陵水下水安装, 安装调试成功后,全球首个商用海底数据中心一期工程将全面竣工.该海底数据中心采用重力热管技术,利用海水作为自然冷源,实现了整体能效提高40%~60%.该商用海底数据中心项目部署了100个舱,相较于同等规模的陆地传统数据中心,每年能节省用电总量1.22亿千瓦时、节省建设用地面积6.8万平方米、节省淡水10.5万吨.极大的减少了能源消耗.
腾讯贵安七星数据中心项目总占地面积约为770亩,隧洞面积约为4万平方米,项目主体为五横一竖共六个隧道.整个数据中心的工作、电力等设备将全部置于其中,形成一个“高隐蔽、高防护、高安全”的绿色高效灾备数据中心.数据中心建于山体内,山洞外冷空气从主洞口进入,经过T-block制冷模块与IT设备热回风进行间接换热后,从竖井排出.这样既可以充分利用外部自然冷源,又避免了外界空气对设备的影响.经过工信部实测,其极限PUE(能源使用率,越接近1能效水平越好)小于1.1,而国内新建数据中心的平均PUE是1.73.
直接冷却分为浸没式与喷淋式,而浸没式又被区分为单相式(非相变)与相变式,而单相式目前被业界广泛采用.喷淋式通常很少应用.
冷板式液冷已经在 HPC、AI 高密计算领域商用超过 8 年时间,技术成熟,生态完善、总体成本可控.更关键的是冷板式液冷不改变客户的使用习惯,硬盘、光模块等部件与风冷一致,运维模式、机房承重与风冷场景也基本一致,同时单点散热能力在 700 瓦以上,可以有效降低数据中心 PUE,更适合规模商用.
冷板式液冷是指采用液体作为传热工质在冷板内部流道流动,通过热传递对热源实现冷却的非接触液体冷却技术.其中,热量通过装配在需要冷却的电子元器件上的冷板,再通过冷板与液体工质的热交换实现的方式,称为非接触 式液冷.其与浸没或喷淋式液冷技术不同,后者主要是指电子元器件与冷却工质直接接触的冷却方式.
服务器满载运行 CPU 温度 40-50℃,比风冷降低约 30℃,完全释放CPU超频性能
在产业内超过 10 多年的液冷研究中,根据客户需求不断淬炼,冷板式液冷服务器(及其基础设施)形成了成熟可商用解决方案.下图所示即为其中之一的制能架构图。.该解决方案通过冷板和 CDU 带走了 IT 设备超过 80%的热量,该部分直接由冷却塔带走;另外 20%的热量通过创新的后置被动式液冷门(无风扇),经由冷水机组和冷却塔之间的换热,支持 25-28℃高温水带走热量(高于行级空调 18℃以下供水温度),可以在全年大部分时间不开冷水机组,仅在夏季需要少量补冷,从而做到制冷 PUE 最佳.
单相浸没式液冷系统中,IT设备所有的发热组件都全部浸没在循环的不导电的冷却液中,设备发出的热量直接传递给冷却液.单相浸没式液冷的冷却液通常具有较高的沸点,冷却液吸热后并不会发生相变,始终维持在液态.
单相浸没式液冷通过自然对流或泵驱动冷却液的循环.自然对流驱动的循环散热过程,利用了液体受热后体积膨胀密度减小的特点,较热的冷却液会自然上浮,之后被连接到外部冷却回路的热交换器冷却.冷却后的液体在重力的作用下自然下沉,完成循环散热.
与自然对流相比,用泵驱动循环冷却液的方式可以更有效的提高冷却能力.由泵、热交换器、传感器、过滤器组成的装置被称为冷却液分配单元(CDU,CoolantDistributionUnit),利用CDU可以更加精确地控制冷却液的温度和流速.较冷的冷却液在泵的驱动下流经发热元件,将热量带走.被加热的冷却液在泵的驱动下进入热交换器被降温,之后在泵的作用下继续循环.热交换器一般用水作为冷却介质,热量最终通过循环冷却水系统排出.
从整个浸没式液冷系统的组成来看,主要由四部分组成,包括冷却液体, IT 部件,IT 设备,机柜系统,室外散热设备等,整体架构如下所示:
单相浸没式液冷,其核心要素是将带电运行状态下的完整服务器浸没在冷却液中,因此充当换热介质的冷却液必须是换热能力强但不导电的高稳定介电液体,这样的介电液体通常不溶(或难溶)于水介质,可最大限度保障其绝缘性不被轻易破坏.其本身在气味、毒性、降解难易、可维护性等方面特性对环境和操作人员应尽可能友好.最为重要的是浸没在液体的部件,在部件选型时需要与冷却液进行验证兼容性和可靠性,才能提供部件与冷却液的兼容性质保.
基于以上考虑,目前在浸没式液冷领域应用讨论最广泛的冷却液主要分为碳氢及有机硅化合物(油类)和碳氟化合物类.
在相变浸没式液冷中,这里以两相浸没式液冷为例,冷却液在循环散热过程中不断经历从液态到气态再从气态回到液态的相变过程.IT设备完全浸没在装有低沸点冷却液的密闭罐体中,设备发出的热量被冷却液吸收,冷却液吸热后温度升高,达到沸点后开始沸腾,由液态相变为气态,同时产生大量的蒸汽.蒸汽从液体中升起逃逸至液面上方,在液冷罐体内形成气相区.气相区的冷却液蒸汽与水冷冷凝器接触,热量被冷凝器吸收,冷却液凝结成液体以液滴的形式落回容器中再次循环,而冷凝器中被加热的冷却水则通过循环冷却水系统完成排热.
为了能有效利用冷却液的相变过程,并控制IT设备的温度,用于两相浸没式液冷的冷却液不仅要有良好的热物理性能、化学及热稳定性、无腐蚀性,还需要合适的沸点、比较窄的沸程范围以及较高的汽化潜热.硅酸酯类、芳香族物质、有机硅、脂肪族化合物及氟碳化合物等都被尝试应用于两相浸没式液冷.其中,氟碳类化合物综合性能最好,因此较为常用.目前3M公司是全球生产浸没式电子氟化液的领先企业,其生产的Fluorinert™电子氟化液与Novec™电子工程液均有不同型号可以用于两相浸没式液冷.两者均有优良的热稳定性和化学稳定性、无味、不可燃、非油基、低毒性、无腐蚀性,可为数据中心提供可信赖且可持续的解决方案.
喷淋式直接液冷是一种面向电子设备器件精准喷淋、直接接触式的液冷技术,冷却液可通过重力或系统压力直接喷淋至IT设备的发热器件或与之连接的固体导热材料上,并与之进行热交换实现对IT设备的热管理.在热交换的工作过程中,IT设备内冷却液的自由液面低于被冷却的发热器件或与之连接的固体导热材料上,系统通过IT设备外部的换热单元对冷却液换热并循环使用.
下图展示了一种典型的喷淋式直接液冷系统原理图,其主要分为冷却水循环、冷冻水循环和冷却液循环.设备主要由冷却塔冷水机组、CDU、喷淋液冷机柜构成.冷却循环可以是分布式的、也可以是集群式的,但分布式的冷却方案具有更高的可靠性、灵活性以及可扩展性.在实际项目中,冷冻水或冷却水建议分配到多个CDU中,CDU中的冷却液也分配到多个机柜.在具体工程项目中,上述循环过程和设备并不是充分或者必须的.根据环境的干球温度、湿球温度、建筑物规模、供液温度等因素,选择冷却循环与室外散热模块.
喷淋式直接液冷机柜是整个系统中实现液冷过程的核心部件,常见液冷标准机柜尺寸有600mm×1200mm×2000mm和600mm×1200mm×2200mm,下图展示了两种典型的喷淋式液冷实现方法.
b)冷媒进入机柜后直接通过分液支管进入与服务器相对应的布液装置,或者将冷媒输送至储液箱以提供固定大小的重量势能以驱动冷媒通过布液装置进行喷淋;
c)之后冷媒将通过布液器对IT设备中的发热器件或与之相连的导热材料(如:金属散热器、VC、热管等)进行喷淋制冷;
d)被加热之后的冷媒将通过集液装置(如:回液管、集液箱等)进行收集并通过泵输送至CDU进行下一次制冷循环.
整个喷淋液冷工艺流程循环中,通过换热设备将不同的子循环过程串连起来,其中换热设备的具体形式需要根据换热温差(接近点温差或对数平均温差)、安全性、体积、重量、成本、可靠性等参数确定.在使用冷却塔的时候,需按照相关标准配或用户要求配置足够大的补水水箱或水塔,大型数据中心通常需储备12h的补水量. 以下给出几种常见换热器的接近点温度.
冷水机组按照废热排放方式分为风冷式冷水机组与水冷式冷水机组,两种形式的冷水机组均可以在系统中作为补充使用.标准冷水机组的设计出水温度通常为7℃,回水温度通常为12℃.除非在有除湿需求的运用工况下,这样的温度对于任何形式的液冷系统往往过低.而对于喷淋液冷散热需求,可适当调高出水温度来降低能耗,比如25℃进,20℃出,同时防止冷冻水管的结露.为了防冻,可以在水中添加防冻液降低凝固点,但需注意,防冻液的添加会导致混合液的物理性质和换热设备的性能产生变化.同时,管路、阀门、水泵及水箱等选型需耐防冻液腐蚀.
CDU是被推荐使用的一个中间换热设备.CDU并非只是承担一个换热器的功能,该设备还肩负着制冷量(而不仅是冷却液流量)分配的功能.CDU的主要功能及特点如下:
上述功能并非在所有应用中都是必须的,可以根据实际需求进行选择. 下图展示了一种典型的CDU实现形式.
CDU为众多实现方式的一种,其中示意的部件并非是充分的或必须的,其主要功能通过以下方式实现.
a)供液流量和压力控制:系统可以在泵出口的管路配置比例调节阀或者对泵进行变频控制,从而调整CDU的供液流量或者供液压力,为提高控制精度,可将泵的运行频率或比例阀的开度与布置在供液管道上的压力传感器或温度传感器进行闭环控制;
b)供液温度调节:若CDU并没有流量或者压力控制需要,则可以将循环泵设置在换热器的前段,并在泵出口配置比例调节阀且连通至换热器后的管。