当下常规操作中,搭建GPU集群并对其编程以达到扩展深度学习的目的是一项艰巨的工作,也是当下限制行业实现人工智能大规模发展的瓶颈。半导体初创公司Cerebras通过一种策略构建的晶圆级芯片WSE系列能挑战英伟达在人工智能计算领域的主导地位吗?

微信图片_20240626070726

随着大型超级计算机的规模越来越大,总部位于加州桑尼维尔的Cerebras公司另辟蹊径。该公司没有将越来越多的GPU芯片组合在一起,而是将尽可能多的处理器放在同一片巨型晶圆上。其主要优势在于,原先分散在多个芯片的处理器现在在同一个芯片内部直接互联,可以显著提高计算速度,节省芯片之间的相互通信以及内存访问的时间开销。

Cerebras在两个独立但相关的成果中展示了其晶圆级芯片的优势。

首先,算得快!该公司研发的第二代晶圆级芯片WSE-2,在分子动力学计算(比如蛋白质折叠、核反应堆辐射损伤建模等)方面,Cerebras的速度明显快于世界上最快的超级计算机Frontier。

其次,能耗小!与机器学习模型优化公司Neural Magic合作,Cerebras证明了一个稀疏的大型语言模型可以在不牺牲任何准确性的情况下,以全模型三分之一的能耗成本进行推理。

正是由于其硬件支持的处理器互联和快速内存访问,才让Cerebras可以胜任截然不同的领域。

飞速穿越分子世界

“想象一下,有一个裁缝,他一周能做一套西装。”Cerebras 首席执行官兼联合创始人安德鲁·费尔德曼(Andrew Feldman)说道,“隔壁的裁缝也能在一周内做好一套西装。于是他付钱给隔壁的裁缝,希望两人联手,一周做两套西装。但可惜的是,因俩人无法合作,实现不了在半周时间内做好一套西装的目标。”

费尔德曼认为,GPU芯片就像无法协同工作的裁缝,至少在分子动力学某些问题上是这样。更多的GPU芯片连接在一起,可以模拟更多的原子,却不能更快地模拟相同数量的原子。

然而,Cerebras的晶圆级芯片以完全不同的方式扩展。由于不受芯片互联的带宽限制,它们可以快速通信,就像两个裁缝通过完美合作,在三天半内做好一套西装一样。

为了证明这一优势,该团队模拟了80万个原子之间的相互作用,每次计算间隔为一飞秒。在他们的硬件上,每一步的计算只需要几微秒即可完成。虽然仍然比实际的相互作用慢9个数量级,但这速度是超级计算机Frontier的179倍,这一成就有效地将一年的计算时间缩短到了两天。

劳伦斯利弗莫尔国家实验室的研究员托马斯·奥佩尔斯特鲁普(Tomas Oppelstrup)表示,这一进展使得以前无法实现的模拟分子间相互作用成为可能。

奥佩尔斯特鲁普表示,这对于研究材料在极端条件下的长期稳定性特别有用。“当你建造在高温下运行的尖端机器时,比如喷气发动机、核反应堆或用于能源生产的聚变反应堆,”他说,“你需要能够承受极端高温和恶劣环境的材料。这些材料需要很长的使用寿命和足够的强度,创造出合适性能的材料很困难。”

奥佩尔斯特鲁普说,能够更长时间地模拟候选材料的行为对于材料设计和开发过程非常重要。

Cerebras首席工程师伊利亚·莎拉波夫(Ilya Sharapov)表示,公司期待将其晶圆级芯片的应用拓展到更大范围,包括生物过程的分子动力学模拟以及汽车或飞机周围气流的模拟。

缩小大型语言模型

随着大型语言模型 (LLM) 越来越受欢迎,使用它们的能源成本开始超过训练的成本,差不多有十倍。

“推理是当今人工智能的主要工作,因为每个人都在使用 ChatGPT,”Cerebras产品营销总监詹姆斯·王(James Wang)表示,“大规模运行的成本非常高。”

降低推理能耗(和速度)的一种办法是通过稀疏性——本质上就是利用零的力量。

LLM由大量参数组成。例如,Cerebras使用的开源Llama模型有70亿个参数。在推理过程中,每个参数都会用于处理数据的输入输出。但如果这些参数中有很大一部分是零,就可以在计算过程中跳过它们,从而节省时间和能耗。

问题是在GPU芯片上很难跳过特定的参数。GPU对内存的访问相对较慢,因为它们被设计成以数据块为单位读取内存,这意味着一次读取一组参数。这不允许GPU跳过参数中随机散布的零。

Cerebras首席执行官费尔德曼打了一个比方:“这相当于托运人,只想把东西放在托盘上,因为他们不想检查每个箱子。内存带宽是检查每个箱子以确保它不是空的能力。如果是空的,就把它放一边,然后不托运它。”

一些GPU配备了一种特殊的稀疏性,称为2:4,其中每四个连续存储的参数中有两个是零。最先进的GPU具有每秒TB级的内存带宽。Cerebras的WSE-2的内存带宽是它的一千多倍,达到每秒20 PB。这使得其允许利用非结构化稀疏性,意味着研究人员可以根据需要将参数归零,无论它们在模型中哪个位置,并在计算过程中动态检查每个参数。

“我们的硬件从设计之初就支持非结构化稀疏性,”詹姆斯·王说。

即使使用了适当的硬件,将模型的许多参数归零,结果也可能会更糟糕。但Neural Magic和Cerebras的联合团队找到了一种方法,可以恢复原始模型的全部准确性。在将70%的参数归零后,该团队进行了另外两个阶段的训练,让非零参数有机会补偿归零的参数。

这种额外的训练使用了大约7%的原始训练能耗,而且团队发现,通过这种训练,他们可以恢复完整的模型准确性。较小的模型在推理过程中花费的时间和能耗是原始完整模型的三分之一。

莎拉波夫说:“如此不可思议的突破之所以能在我们的硬件上得以实现,是因为我们的硬件中有一百万个非常紧凑的内核,低延迟,高带宽。”

资料来源:

Giant Chips Give Supercomputers a Run for Their Money

END