即将投入生产的新技术会带来热量处理方面的新问题。

2.1

在过去的 50 多年里,在看似所向披靡的摩尔定律的推动下,工程师每两年就能将相同芯片面积内的晶体管数量翻倍。但在业界一味追求晶体管密度的过程中,有种副作用也愈发显著:热量。

在像如今的中央处理器(CPU)和图像处理器(GPU)这样的系统级芯片中,温度会影响性能、功耗和能效。随着时间推移,过高的热量会减缓处理器中关键信号的传播速度,并导致芯片性能的永久性下降。它还会使晶体管的漏电量增加,导致电能浪费。反过来,功耗的提高会削弱芯片的能效,因为执行同样的任务所需的能量会越来越多。

问题的根源在于另一条已经终结的定律:登纳德缩放定律。该定律指出,当晶体管的线性尺寸缩小时,电压应随之降低,以保证给定面积的总功耗保持不变。登纳德缩放定律在2005年前后已经事实性终结、失效,因为此时任何进一步降低电压的尝试都会损害晶体管的整体功能。此后,逻辑电路的密度持续增长,功率密度也随之增加,由此产生了热量这一副产品。

随着芯片的表面密度越来越高、能力愈发强大,高效的散热对于保持其性能和寿命便变得至关重要。为了确保芯片效率,我们需要一种工具来预测新的半导体技术(也就是制造晶体管、互连组件和逻辑单元的工艺)会如何改变生热和散热的方式。我和我在比利时微电子研究中心(IMEC)的研究员同事们所开发的正是这样一种工具。我们的模拟框架结合了行业标准和开源的电子设计自动化工具,并辅以我们自主研发的工具集,能够快速探索半导体技术与基于其构建的芯片系统之间的相互作用。

我们目前得出的结果不容忽视:每诞生一个新的技术节点,热挑战都会进一步加剧,要想让它们应对此等高温,我们需要新的解决方案,包括全新的芯片设计和系统设计。

冷却的极限

传统上,系统级芯片是通过让空气吹过连接在其封装上的散热器来实现冷却的。一些数据中心已经开始改用液冷,因为液体能比气体吸收更多的热量。液体冷却剂(通常是水或基于水的混合物)或许足以应对最新一代的高性能芯片(如英伟达的新款人工智能GPU,据称其功耗高达惊人的1000瓦),但无论是风扇还是液体冷却器,都无法应付即将到来的、更小的制程节点技术。

以纳米片晶体管和互补场效应晶体管为例,领先的芯片制造商已经开始转向纳米片器件,这种器件将现有的鳍式场效应晶体管中的鳍片替换为一叠水平的半导体薄片。互补场效应晶体管则将这种架构推向极致,通过垂直堆叠更多薄片并将其分成两个器件,从而在几近一个晶体管的占地面积内放置两个晶体管。专家预计,半导体行业将在21世纪30年代引入互补场效应晶体管。

在本团队的研究中,我们考察了一种即将推出的纳米片,称为A10(指的是10埃,即1纳米的节点),以及一种称为A5的互补场效应晶体管,IMEC预计后者将在A10的两代产品之后实现。我们对测试设计的模拟结果显示,A5节点的功率密度比A10节点高出12%到15%。相应地,增加的这些密度预计将导致芯片在工作电压不变的前提下温度上升9°C。

9°C的差异或许看似不大。但在数据中心,数十万到数百万枚芯片紧密排列在一起,这个程度的温差可能就意味着稳定运行与热失控之间的差别。热失控是一种令人畏惧的反馈循环:温度升高会增加漏电功率,漏电功率增加又会进一步升高温度,如此循环,直到最终,安全机制不得不关闭硬件以避免永久性损坏。

研究人员正在探索比基础液冷和风冷更先进的替代方案,以帮助缓解这种极端高温。例如,微流体冷却利用蚀刻在芯片上的微小通道,让液体冷却剂在设备内部循环。其他方法包括射流冲击冷却,即将气体或液体高速喷射到芯片表面,以及浸没式冷却,即将整个印刷电路板浸入冷却液槽中。

但即使这些较新的技术开始发挥作用,仅依靠冷却器来散除多余热量也很可能难以实现。对于移动系统来说尤其如此,因为移动系统受限于尺寸、重量、电池电量,且绝不能“烫熟”用户。与此同时,数据中心则面临另一些限制:由于散热系统属于整栋建筑级别的基础设施支出,如果每次新芯片投入使用时都对其进行改造,会花费巨大且干扰运营。

性能与热量之战

幸运的是,冷却技术并不是防止芯片过热的唯一方法。有多种系统级的解决方案都可以通过动态适应不断变化的热条件来控制热量。

一种方法是在芯片周围布置热传感器。当传感器检测到芯片增温至警戒点时,它们会发出信号,降低工作电压和频率,从而减少功耗,以抵消发热带来的影响。然而,尽管这种方案可以解决热量问题,却可能明显影响芯片性能。例如,在高温环境下,芯片可能始终表现不佳,任何曾把智能手机放在大太阳下的人都能体会到这一点。

另一种方法称为热冲刺,它特别适用于多核数据中心CPU。其做法是让一个核心运行直到过热,然后将操作转移到第二个核心,同时让第一个核心冷却。这个过程可以最大化单线程的性能,但在较长任务中会造成延迟,因为进程必须在多个核心之间反复迁移。热冲刺还会降低芯片的整体吞吐量,毕竟总有一部分核心会因处于冷却中而被禁用。

2.2

新技术可以降低多核处理器所需的供电电压,使芯片在保持最低电压的同时以可接受的频率运行。背面供电网络通过降低电阻来实现这一点;背面电容器可减少瞬态电压损耗,背面集成电压调节器则允许不同的核心根据需要在不同的最低电压下运行

因此,系统级解决方案需要在热量与性能之间取得谨慎的平衡。为了有效应用这些方案,系统级芯片设计师必须全面了解芯片上功率的分布情况,热点的位置,传感器的放置点,传感器触发电压或频率降低的时机,以及芯片各部分冷却所需的时间。不过,不久后,即使是最优秀的芯片设计师,也会需要更具创造性的散热管理方法。

利用芯片的背面

前景乐观的方向之一,是将新功能添加到晶圆的底面或背面。这一策略的主要目的是提升供电能力和计算性能,但它也可能有助于解决某些散热问题。

IMEC预测了几种可能使芯片在较低电压下运行,从而降低其生成热量的背面技术。其中,首个预计实现的技术是所谓背面供电网络,顾名思义,它将电源线从芯片的正面移到背面。所有的头部互补金属氧化物半导体(CMOS)晶圆厂都计划在2026年底前提供背面供电网络工艺。早期演示表明,通过让电源更靠近晶体管,可以降低电阻。电阻减少意味着电压损耗降低,也就意味着芯片可以在较低的输入电压下运行。而当电压降低时,功率密度会下降,温度也就随之降低。

在采用背面供电网络之后,制造商很可能还会着手再在芯片背面添加具有高能量存储能力的电容器。由印刷电路板和芯片封装中的电感引起的大幅电压波动在高性能系统级芯片中会变得尤为棘手,而背面电容器应有助于解决这一问题,因为它们更靠近晶体管,能够更快地吸收电压尖峰和波动。因此,这种布局可以使芯片在比仅使用背面供电网络时更低的电压和温度下运行。

2.3

通过改变散热路径上的材料,背面供电技术会使

芯片上的热点变得更加炽热

最后,芯片制造商将会引入背面集成电压调节器电路。这项技术旨在通过更精细的电压调节进一步降低芯片的电压需求。以智能手机的系统级芯片为例,它通常拥有8个或更多的计算核心,但芯片上没有充足的空间让每个核心都配备独立的电压调节器。相反,通常是由一个外部调节器同时管理4个核心的电压,不论这4个核心是否承受着相同的计算负载。相比之下,背面集成电压调节器会通过专用电路单独管理每个核心,从而提高能效。将它们放置在芯片背面可以节省芯片正面的宝贵空间。

目前,业界尚不清楚背面技术将如何影响散热管理,我们还需要通过演示和模拟来描绘其影响。引入新技术通常会增加功率密度,因此,芯片设计师需要考虑它们的热效应。例如,在放置背面集成电压调节器时,要如何布局才能解决热量问题呢?是让它们均匀分布,还是将它们集中在特定区域(如每个核心和内存缓存的中心)呢?

最近,我们发现背面供电虽然能解决旧的热问题,却可能同时引入新的热问题。原因在于,制造背面供电网络时,剩下的硅层会变得极薄。在正面设计中,硅衬底可以厚达750微米。由于硅的导热性能良好,这一相对厚实的硅层即可通过横向扩散晶体管的热量来帮助控制热点。然而,加入背面技术意味着将衬底削薄至约1微米,以便让芯片背面接触到晶体管。此时,这片纤薄的硅片夹在两层导线和绝缘层之间,无法有效地将热量向侧面传导。其结果是,高负载晶体管产生的热量会局部滞留并被迫向上传向散热器,从而加剧热点问题。

我们对一款80核服务器系统级芯片的模拟结果显示,背面供电网络会使热点温度升高14°C之多。设计调整和技术调整可以改善这种情况(例如增加背面金属的密度),但我们仍然需要更多的缓解策略来彻底避免这一问题。

“CMOS 2.0”做好准备

背面供电网络是硅逻辑技术新范式的一部分,IMEC将这一技术范式命名为二代互补金属氧化物半导体,即“CMOS 2.0”。这个新兴的时代还将目睹先进的晶体管架构和专用逻辑层技术的诞生。这些技术的主要目的在于优化芯片性能和能效,但它们也可能带来热管理方面的优势,包括散热能力的改善。

在当今的CMOS芯片中,单个晶体管需要同时驱动信号到近处和远处的组件,这会导致效率低下。但如果芯片有两个驱动层呢?一层负责长导线,并用专用晶体管对这些连接进行缓冲;另一层只处理10微米以内的连接。由于第二层的晶体管会针对短连接进行优化,它们将可以在更低的电压下运行,从而再次降低功率密度——不过目前尚不确定具体能降低多少。

2.4未来,芯片的部分组件将会在各自的硅晶圆上采用适合它们的工艺技术制造。随后,这些组件将进行三维堆叠,形成比仅使用单一工艺技术制造的系统级芯片性能更优的产品。但工程师必须仔细考虑热量在这些新型三维结构中的传导方式

可以明确的是,解决行业的散热问题将是一项跨学科的工作。我们不太可能单靠某一种技术——无论是热界面材料、晶体管、系统控制方案、封装,还是冷却器——去解决未来芯片的热问题。我们需要将它们全部结合起来。借助良好的模拟工具和分析,我们就可以逐渐厘清该在哪个时间点、在何种程度上应用每种方法。尽管CMOS 2.0技术在热性能方面似乎前景乐观(特别是背面功能化和专用逻辑技术),但我们仍需对这些早期预测进行确认,并仔细研究其影响。例如,对于背面技术,我们需要准确了解它们如何改变热量的产生与消散机制,以及这种改变所带来的新问题是否会比其解决的问题更多。

芯片设计师可能会倾向于采用新的半导体技术,并假设意料之外的散热问题后续可以通过软件解决。这种想法在一定程度上或许是成立的,但也有其局限性。过度依赖软件解决方案会对芯片性能造成不利影响,因为这些方案本质上并不精确。比如,为了修复一个单一的热点,可能需要降低一大片并未过热的区域的性能。因此,系统级芯片及其所采用的半导体制造技术必须协同设计,密切配合。

好消息是,越来越多的电子设计自动化产品正在增加用于高级热分析的功能,包括在芯片设计的早期阶段可用的此类功能。系统技术协同优化旨在通过整体考虑系统、物理设计和工艺技术,打破它们之间僵化的抽象边界。专业人士需要走出自己的舒适区,与其他芯片工程领域的专家合作。我们或许还不知道如何精确解决行业日益严峻的热量挑战,但我们乐观地认为,只要有合适的工具和协作,这一问题是可以解决的。

资料来源 IEEE

————————

本文作者詹姆斯·迈尔斯James Myers)是英国帝国理工学院电气与电子工程学学士,比利时微电子研究中心系统技术协同优化项目领导人,拥有60项美国专利