发布时间 :2024年06月25日

IDC观察室 | 拥抱液冷,迎接可持续高效运营时代


导读:

在上文中,我们探讨了关于数据中心部署方案的灵活性,本文我们将聚焦数据中心的液冷技术,“冷静思考”算力“热潮”下数据中心散热面临的挑战与应对之道。


风冷不能承受之重


当前,随着人工智能和高性能计算系统对更强大的 CPU 和 GPU功耗的需求增加,数据中心的功耗要求日益增长,散热需求也不断提升,是数据中心面临的现实问题。采用液冷技术成为数据中心的必然选择,采用适合的风液混布解决方案也将提上日程。


数据中心的能耗和散热正在面临新的挑战。2020年赛迪顾问发布的《中国“新基建”发展研究报告》预测,到2025年,全球数据中心能耗将占全球能耗的最大份额,高达33%;当年我国数据中心耗电量已连续8年以超过12%的速度增长。有数据称,2022年我国数据中心总耗电量约2700亿千瓦时,占全社会用电量的3.1%,超过两座三峡水电站年发电量。其中,约一半的能耗是用在芯片“计算”上的;而且计算量越大,散热消耗的电量越大。[1]因此,在当前以大语言模型为代表的人工智能高速发展、算力快速升级的背景下,如何改善和提升散热效率,成为数据中心面临的一个非常现实的问题。


散热已成为当前智算发展面临的最大问题之一。特别是在大模型训练等场景下,服务器功耗进一步提升。最为典型的案例是,相比传统服务器功率约为400W,有关数据显示,用于训练ChatGPT的英伟达DGX A100服务器的最大功耗达6.5kW,训练单个GPT3.0模型预计需要1000台以上的6.5kW的AI超算服务器;而逻辑推理阶段的功耗更是训练阶段的数倍。


GPU在高负载工作时会产生大量的热量,需要有效的散热才能保持其稳定的工作状态。随着功耗的高速增长,传统的空气冷却技术已经无法满足数据中心的要求:风冷技术将空气作为传热介质的散热能力有限,散热效率相对较低,增加了设备过热和故障的风险。此外,在高密度数据中心中,设备的局限性紧密排列会限制空气流动,使得冷却空气的供应和热空气的排出受到限制。


液冷技术迎面袭来


在单一风冷技术无法满足数据中心散热的背景下,液冷技术以其高效的冷却性能,能够更好地应对高功耗环境下的热量散发需求而受到越来越多的厂商青睐。ODCC指出[BZ1] ,[BZ2] 随着大型数据中心规模持续增加,使用冷却技术成为数据中心减少能耗的关键,该领域最主流的技术则是制冷能效高的液冷技术。


与传统的空气冷却系统相比,液冷技术的应用越来越[BZ3] 广泛,可以满足不断变化的客户需求,逐渐成为数据中心散热的中坚力量。数据中心的冷却系统设计有诸多解决方案,其中包括后门热交换器、直接到芯片液冷浸没式液冷等。后门热交换器主要是通过安装在机架后门处的液体与内部空气实现热交换,可以减少对整体空调系统的依赖,通过精确控制热产生的源头附近的温度来提高能效,是一种有效的局部冷却解决方案;直接到芯片液冷则是直接将冷板安装在设备发热元件上(如CPU、GPU),通过液体与组件进行热交换,冷却设备;浸没式液冷是将服务器与组件浸泡在流体中,通过液体的高导热性为数据中心提供更精确的温度控制。


数据中心对稳定的计算能力和高效的能源利用有着更高的要求,因此液冷技术的多场景应用,对于高性能计算和人工智能盛行的当今尤为关键。[6] [7] [8] 从某个角度来看,更加高效的热管理和散热可以充分激发芯片的潜能。这是因为芯片的运行主频越高,处理数据的速度就越快、算力就越大,但是所需电量更多,产生的热量也更多。在供电充足、散热降温足够的前提下,芯片就能够在更高的主频下使用,进而充分激发芯片潜能。


值得一提的是,液冷技术的高效制冷效果在有效提升了服务器的使用效率和稳定性的同时,还可使数据中心在单位空间布置更多的服务器,提高数据中心的运行效率,余热利用还能创造更多经济价值。


如此可见,随着数据中心功耗的不断增长,采用液冷技术已是大势所趋。液冷技术将成为未来数据中心的重要组成部分IDC数据显示,2023上半年中国液冷服务器市场规模达到6.6亿美元,同比增长283.3%。IDC还预计,2022-2027年,中国液冷服务器市场年复合增长率将达到54.7%,2027年市场规模将达到89亿美元。[5]中国移动、中国电信和中国联通联合液冷产业链相关企业在2023年6月[BZ9] [VS10] 发布的《电信运营商液冷技术白皮书》中提出,三大运营商2024年新建数据中心项目10%规模试点应用液冷技术;到2025年50%以上数据中心项目应用液冷技术。[6]足以见得液冷技术在数据中心散热解决方案中的重要性。


各取所长按需组合


不可否认的是,液冷技术也并不是尽善尽美:在成本上,液冷系统的建设和维护成本可能较高;在外界条件上,液冷对环境提出了新的要求,需要足够的空间和适宜的环境条件来运行;在运维上,液冷系统的设计和安装都需要高水平的专业知识和技术来支撑。为了以更好的性价比达到更好的散热效果和更省心的运维,散热方案可以将不同冷却技术结合起来。企业能够根据不同的应用场景和散热需求,选择合适的散热技术,以实现最佳的散热效果。


其中,风液混布技术是目前比较常见的一种组合。它是一种高效、灵活、节能、环保的数据中心散热解决方案,充分利用了风冷和热冷技术的优势,从而提高数据中心的可靠性和可扩展性,降低运营成本和环境污染,为数据中心的散热方案增添了一个新选择。

风液混布可以根据服务器的散热需求,在不同的区域采用不同的散热技术,通过智能控制系统实现自动调节,从而达到高效、可靠、节能的数据中心散热方案:在高密度服务器区域采用液冷技术,通过液体循环来带走服务器产生的热量;在低密度服务器区域采用风冷技术,通过空气流动来带走服务器产生的热量。这样可以在保证散热效率的同时,降低成本和维护难度。


选择供应商关注三大因素


随着技术的不断发展,数据中心冷却技术也在不断创新和完善。随着液冷数据中心的引入与普及,以及越来越高的绿色环保、高效能源利用、整体优化与综合管理等需求的提出,使得数据中心散热解决方案供应商的选择变得更加复杂。


企业在选择解决方案供应商时,可以重点考量以下三个因素:一是技术的可行性、适应性,要考量散热方案是否符合数据中心的要求,能否应对设备的密集度和功耗需求,散热设备是否符合行业标准,可以要求供应商提供有关产品性能和质量的数据信息;二是供应商的经验和专业知识,是否在该领域有良好的声誉、是否有成功的案例和客户参考;三是创新和未来可扩展性,是否拥有先进的散热技术,能否进行持续研发和创新,以满足不断变化的数据中心需求和技术发展趋势。


选择合适的散热技术供应商将有助于确保数据中心的冷却系统能够满足长期运营的需求,并提供高效能耗和可靠的散热解决方案。

朝亚作为一家专注于数据中心开发和运营的公司,多年来,不断研究和推出包括数据中心散热解决方案在内的尖端技术,通过风液混布技术满足不断增长的数据中心散热需求,由此形成了优势显著的散热解决方案并取得了显著成效。


万物摩尔定律即将作用到AI算力上。GPT和大语言模型的出现,使得AI运算量呈指数级升级,芯片的功率越来越高,数据中心也将迎来更多的挑战。接下来,朝亚将继续探索前沿的数据中心解决方案,为用户提供安全、稳定、可靠、绿色的数据中心。

/ 行业洞察 /