要计算出生成单张“教皇身着巴黎世家”AI所消耗的瓦数和焦耳数并不容易。但论及人工智能的真实能耗,我们并非完全一无所知。

17

众所周知,机器学习要消耗大量的能量。所有那些支持生成电子邮件摘要、弑君聊天机器人,以及动画角色霍默 · 辛普森(Homer Simpson)唱新金属音乐的视频的人工智能模型,都在以每小时数兆瓦的速度累积着巨额的服务器费用。但似乎没有人——甚至是这项技术背后的公司——能够准确地说出成本是多少。

估计数字确实存在,但专家表示,这些数字只是部分和偶然的,只能让人们对人工智能的总能源使用情况有一个粗略的了解。这是因为机器学习模型具有难以置信的可变性,能够以显著改变其功耗的方式进行配置。此外,那些最有条件制定法案的组织——如元平台(Meta)、微软(Microsoft)和开放人工智能(OpenAI)等公司——根本就没有共享相关信息。微软负责云运营和创新的首席技术官朱迪 · 普里斯特(Judy Priest)在一封电子邮件中表示,该公司目前正在“投入研究开发方法,以量化人工智能的能源使用和碳影响,同时致力于提高大型系统在培训和应用方面的效率”。开放人工智能和元平台方面则没有给出回复。

我们可以确定的一个重要因素是首次训练模型时和将其部署给用户时的功耗区别。模型训练尤其耗能,它消耗的电力要远超传统的数据中心活动。例如,训练一个像GPT-3这样的大语言模型,估计使用的电力要将近1300兆瓦时,大约相当于130户美国家庭一年消耗的电量。对这个数据更直观的说明是:在线观看一小时的网飞视频需要大约0.8千瓦时(0.0008兆瓦时)的电。这意味着你必须观看1 625 000小时的流媒体才能消耗与训练GPT-3所需的同等电量。

但是,我们很难说这样一个数字要如何适用于目前最先进的系统。实际的能耗可能会比这更大,因为多年来人工智能模型的规模一直在稳步上升,而更大的模型需要更多的能源。另一方面,企业可能正在使用一些已经验证过的方法来让这些系统变得更节能,这将抑制能源成本上升的趋势。

法美联合人工智能公司抱抱脸(Hugging Face)的研究员萨莎 · 卢乔尼(Sasha Luccioni)表示,计算最新估计数据的挑战在于,随着人工智能逐渐赢利,企业变得更加保密。回看几年前,像开放人工智能这样的公司还会发布他们训练制度的细节,包括使用的硬件和训练时长。但是卢乔尼表示,对于ChatGPT和GPT-4这样的最新模型,同样的信息根本不发布。

“对于ChatGPT,我们不知道它有多大,不知道它的底层模型有多少参数,也不知道它在哪里运行……它有可能是‘三只浣熊叠罗汉站在雨衣里装成人’,因为你根本不知道兜帽下面是什么。”

卢乔尼撰写了几篇研究人工智能能源使用情况的论文,她认为这种保密性在一定程度上是源于企业之间的竞争,但也是为了转移批评意见。人工智能的能源使用统计数据——尤其是那些最无聊琐碎的用例的数据——自然会让人联想到加密货币的能耗浪费,并将两者相比较。她表示:“人们越来越意识到,这一切并非没有代价。”

训练模型只是整个能耗问题中的一部分。在一个系统创建完成之后,它会被推向消费者,消费者使用它来生成输出,这一过程被称为“推理”。2023年12月,卢乔尼和抱抱脸公司及美国卡内基梅隆大学的同事发表了一篇论文(目前正在等待同行评审),其中包含了对各种人工智能模型的推理能耗的初次估计。

卢乔尼和她的同事们对88个不同的模型进行了测试,这些模型涵盖了从回答问题到识别对象和生成图像的一系列用例。在每个用例下,他们运行任务1000次,并估计能源成本。他们测试的大多数任务使用的能源较少,例如,对书面样本分类耗能0.002千瓦时,生成文本耗能0.047千瓦时。如果我们用观看网飞流媒体一小时的耗能做比较,这些时间分别相当于观看9秒或3.5分钟所消耗的能量。(别忘了:这是执行每项任务1000次的能源成本。)图像生成模型的能耗数据明显更大,平均每1000次推理需耗能2.907千瓦时。这篇论文指出,智能手机充满电所需的平均用电量为0.012千瓦时,因此,利用人工智能生成一幅图像所消耗的能量可能几乎和给你的智能手机充电所消耗的能量一样多。

然而,重点在于“可能”,因为这些数据并不一定适用于所有用例。卢乔尼和她的同事们测试了十种不同的系统,包括从生成微小的64x64像素的小型模型到生成4 K图像的大模型,这导致最终得出的数值范围极大。研究人员对所使用的硬件进行了标准化,以便更好地比较不同的人工智能模型。这并不一定反映了真实世界的部署,因为在真实世界中,软硬件通常针对能源效率进行了优化。

“这肯定不能代表每个人的用例,但至少现在我们有了一些数据,”卢乔尼说,“我想在地上插一面旗子,说‘让我们从这里开始吧’。”

因此,这项研究提供了有用的相对数据,但并非绝对数据。例如,它表明,人工智能模型在生成输出时所需的功率比在分类输入时更多。它还表明,任何涉及图像的任务都比文本更耗能。卢乔尼表示,尽管这些数据的偶然性或许令人沮丧,但这种有条件的、不确定的性质本身就说明了问题。“与生成性人工智能革命相伴而来的是我们一无所知的全球性代价,对我而言,这种(数据)差异尤其具有指示意义,”她说,“一言以蔽之:我们就是不知道。”

因此,由于变量繁杂,试图确定生成一幅“身着巴黎世家的教皇”所需的能源成本是很棘手的。但如果我们想更好地了解其中的全球性代价,还有其他的方法。如果我们不专注于模型推理,而是把目光放得更远呢?

这就是荷兰阿姆斯特丹自由大学的在读博士生亚历克斯 · 德弗里斯(Alex de Vries)的做法。他在自己的博客网站“数字经济学家”(Digiconomist)上初次尝试了计算比特币的能源消耗,并使用英伟达图形处理器(Nvidia GPU,这是人工智能硬件的黄金标准)来估算比特币行业的全球能源消耗情况。德弗里斯2023年在《焦耳》(Joule)上发表的评论中解释道,英伟达占据了人工智能市场销售额的大约95%。该公司还发布了旗下硬件的能源规格和销售预测。

通过整合这些数据,德弗里斯计算出,到2027年,人工智能行业每年可能要消耗85至134太瓦时(1太瓦时=10亿千瓦时)的电力。这大约相当于德弗里斯的祖国荷兰每年的能源需求。

“也就是说,到2027年,人工智能的电力消耗可能占全球电力消耗的0.5%,”德弗里斯告诉“前沿网”(The Verge),“我认为这是一个相当巨大的数字。”

国际能源署最近的一份报告也给出了类似的估计,报告表明,由于人工智能和加密货币的需求,数据中心的用电量将在不久的将来大幅增加。该机构表示,当前数据中心的能源使用量在2022年约为460太瓦时,到2026年可能增加到620至1050太瓦时,这分别相当于瑞典和德国的(年度)能源需求量。

但德弗里斯表示,重要的是把这些数字放在大背景下考量。他指出,从2010年到2018年,数据中心的能源使用量一直相当稳定,约占全球能源消耗的1%至2%。(我们这里所说的“数据中心”指的是构成“互联网”的一切:从公司的内部服务器到你智能手机上所有无法离线使用的应用程序。)德弗里斯说,在这段时间内,需求确实增加了,但硬件效率也提高了,从而抵消了需求的增加。

他担心的是,对于人工智能而言,情况可能会有所不同,这恰恰是因为企业倾向于简单地投入更大的模型和更多的数据来处理任何任务。“这对效率来说是一种真正致命的动态,”德弗里斯说,“因为它为人们无脑地不断增加计算资源创造了一种自然的激励,而一旦模型或硬件变得更高效,人们就会把这些模型做得比之前更大。”

效率的提高是否能够抵消不断增长的需求和使用量,这是个无法回答的问题。与卢乔尼一样,德弗里斯也为缺乏可用数据而感到惋惜,但他表示,世界不能简单地忽视这件事。“目前所做的数据估计算是为了搞清楚这个问题未来走向的权宜之计,它肯定不是完美的数据,”他说,“但它已足以给出一些警告。”

一些涉足人工智能的企业声称,该技术本身可以帮助解决这些问题。代表微软发言的普里斯特表示,人工智能“将成为推进可持续解决方案的有力工具”,并强调微软正在努力实现“到2030年实现负碳排、水资源正效益和零浪费的可持续发展目标”。

但是,一家企业的目标永远无法涵盖整个行业的需求。可能还需要其他的方法。

卢乔尼表示,她希望看到企业为人工智能模型引入能源星级评级,让消费者能够像对待家电一样对能源效率进行比较。对于德弗里斯来说,我们应该采用更根本的方法:我们真的需要使用人工智能来执行特定的任务吗?“因为,考虑到人工智能的各种局限性,在很多情况下,它可能根本不是正确的解决方案,而我们将走上更难的那条路、通过浪费大量的时间和资源来搞懂这一点。”

资料来源 The Verge

————————

本文作者詹姆斯·文森特(James Vincent)是一位专注于人工智能、机器人领域的资深记者