在芯片技术演进的长河中,“摩尔定律”长期指引着性能增长的航向。然而,在人工智能计算需求爆炸性增长的今天,图形处理器(GPU)芯片单位面积内的功耗已突破100W/cm2,一个更为根本的物理约束,热管理,走到台前并被急剧放大,演变为决定人工智能算力持续增长的关键瓶颈。

微信截图_20260101112404

算力狂飙与热量禁锢的矛盾成为芯片研究的关键。人工智能计算,特别是深度学习,其核心是高度并行、数据密集的矩阵运算。这直接驱动了GPU芯片集成数千计算核心、高带宽内存,并以惊人的高达几千瓦的功率运行。

这种“暴力计算”模式,本质上是在极小的空间内进行极高的能量转换,其副产品热量的堆积速率已远超传统散热技术的处理能力。问题的根源至少体现在以下两个方面。

其一,登纳德缩放定律的终结

该定律曾确保晶体管尺寸缩小时芯片单位面积的功耗基本稳定。约在2005年后,电压无法继续降低,此定律失效导致晶体管密度提升的同时芯片单位面积功耗同步飙升。

其二,三维堆叠的“热流密度”困境

为持续提升集成度,芯片技术从平面走向三维立体,如互补场效应晶体管(CFET)将晶体管垂直堆叠。这虽然增加了逻辑密度,却也将功率耗散集中在更小的三维空间内,形成热流积聚的“热斑”。对于数据中心而言,部署成千上万片此类高功耗芯片,热管理已直接关乎运营成本、计算可靠性和碳排放。

芯片散热是持续的极限挑战。芯片散热的困境在于:热量禁锢在尺寸极为有限的芯片内部并向三维扩散,而有效散热主要依赖散热器顶部风冷或水冷向外部传导。从内到外典型的热流的路径为:芯片热点-芯片内热界面材料-芯片顶盖-热界面材料-散热器-风冷或水冷,热量从芯片内部热点传导至外部的路径受阻,热阻居高不下。

100W/cm2以上的GPU芯片热流密度,使传统的导热硅脂、导热硅胶垫、项目导热垫、液态金属、导热碳纤维等用于降低热阻的热界面材料不堪重负。100cm2以上大面积GPU芯片,在高温运行过程中不可避免的翘曲问题,使芯片和散热器之间高度差被放大,进一步弱化了传统热界面材料的有效性,加大了热阻挑战。

虽然具有超柔性和超高导热能力的石墨烯热界面材料应运而生,短暂地满足了GPU芯片散热需求,但也不是芯片散热问题的终结者,因为芯片的热流密度还将进一步飙升。只要芯片性能创新高,芯片散热就有了新极限。依靠风冷、液冷等“末端治理”手段无法应对根本性挑战。未来必须将热管理作为核心约束,融入从半导体工艺到软件算法的热协同设计。

在人工智能驱动的算力时代,散热不再是附属的工程问题,而是定义算力上限的核心设计维度,散热能力就是算力。成功驾驭热量,实现“与热共舞”,将成为下一代计算芯片和基础设施取得突破的关键标志。这不仅是技术的挑战,更是对整个产业创新模式和组织智慧的考验。

-本文是丁古巧研究员就《世界科学》杂志2025年第12期《未来的芯片将比以往更热》一文的点评-

END