我们即将进入人工智能(AI)新时代,这个时代有望达到前所未有的能力水平。新一代智能体将主要通过从经验中学习来获得超越人类的能力。本文探讨了定义这一新时代的关键特征。
人类数据时代
近年来,AI依靠海量的人类生成数据进行训练,并根据专业的人类示例和偏好进行微调,取得了显著进步。大语言模型(LLM)正是这一模式的典型例证。如今,单个LLM就能完成多种任务:从创作诗歌、解答物理题目,再到诊断病症和概括法律文件,不一而足。
然而,尽管模仿人类足以在相当高的水平上复制人类的许多能力,但是单凭这种方式,目前还未能——很可能也无法——在许多重要课题和任务上实现超人类智能。在诸如数学、编程和科学之类的关键领域中,从人类数据中汲取的知识正在快速逼近极限。大部分高质量数据源——那些实际上能够提升智能体表现的数据——要么已经被用掉,要么很快就会被消耗掉。单纯由依赖人类数据的监督学习所驱动的进展,其进步速度明显放缓,这标志着我们需要一种全新的方式。此外,宝贵的新洞见(譬如新的定理、技术或科学突破)往往存在于人类现有认知边界之外,机器无法通过现有的人类数据来捕获。
经验时代
为实现更显著的进步,我们需要开发新的数据源。这类数据会以一种随着智能体变得更强而不断优化的方式生成——允许智能体不断地从自身经验(即智能体通过与环境交互所产生的数据)中学习就能实现这一目标。静态合成数据的方法很快就会被甩在身后。AI正处在一个新时期的开端,日后,“经验”会变成进步的主导媒介,其规模将碾压如今系统中使用的人类数据。
这种转变可能已经开始,对于以人为中心的AI典范LLM来说也是如此。例如,在数学能力方面,AlphaProof在2024年成为首个在国际数学奥林匹克竞赛中达到银牌得主相当水平的AI程序,让那些以人为中心的传统方法黯然失色。AlphaProof最初接触的是由人类数学家历经多年创造出的大约十万条形式化证明,然后,它与形式化证明系统持续交互,通过强化学习(RL)算法生成了上亿条新的证明数据。这种对于交互式经验的专注使得AlphaProof能够探索既有形式化证明范围之外的数学可能性,从而解决新颖又复杂的难题。非正式数学领域也通过用自主生成的数据来取代专家生成的数据取得成功。譬如,深度求索(DeepSeek)的近期研究就强调了RL的能力和魅力:我们无需明确地教模型如何解决问题,只需给它提供适当激励,它便能自主开发出先进的策略。
我们的观点是,一旦经验学习的潜能被充分挖掘出来,智能体令人难以置信的新能力就会出现。这个经验时代很可能由智能体和其所处的环境塑造。智能体不仅能从海量的经验数据中学习,还会在多个维度上突破以人为中心的AI系统的局限:它们将融入连续的经验流中,而非仅仅参与简短的交互片段;其行动与观察将深深扎根于环境本身,而非仅通过人类对话进行交互;其奖励机制将源于对环境的实际体验,而非人类的预判;它们将基于经验进行推理,而非仅以人类的方式进行思考。我们相信,现今的技术辅以有针对性的算法,已为实现这些突破提供了强有力的基础。
持续不断的经验流
经验型智能体能够在其整个生命周期中持续学习。在人类数据时代,基于语言的AI主要聚焦于短期的交互事件。例如,用户提出一个问题,智能体(可能在经过若干思考步骤或使用工具的行动后)做出应答。一般来说,在这个过程中,只有极少信息或者根本就没有信息会被递送到下一次对话中,这就排除了任何随着时间推移出现的适应性调整。更重要的是,智能体只瞄准当前事件的结果,譬如直接回答用户的一个提问。相比之下,人类和其他动物存在于持续多年的行动与观察流中。信息沿流传递,他们的行为也会根据过往经验进行自我调整从而实现优化。此外,目标可以根据那些延伸至经验流遥远未来的行动和观察来进行设定。例如,人类可能会选择采取行动来实现像改善健康状况、学习一门语言或获得科学突破这样的长期目标。
强大的智能体应该像人类一样,拥有能在较长的时间尺度上不断发展的经验流。这会使得智能体采取行动以实现未来目标,并随着时间推移持续适应新的行为模式。譬如,一个健康管理智能体(与用户的可穿戴设备相连)可以持续几个月监测用户的睡眠模式、身体活动状况和饮食习惯,进而为用户提供个性化的建议,并根据长期趋势和用户的特定目标不断调整;一个个性化的教育助手可以持续数月乃至数年追踪用户学习一门新语言的进度,确定其知识掌握情况,并基于用户的学习风格,动态调整教学策略。这样的智能体不仅能在较长的时间段内积累经验、分析现实世界的观测数据,开发并运行模拟程序,还能提出实际的实验方案或干预措施。
在每个案例中,智能体都会采取一系列步骤,以便将与特定目标有关的长期成功最大化。单个步骤可能不会带来任何立竿见影的好处,甚至在短期内产生不利影响,但总体来说,可能有助于实现长期的成功。这与当前的AI系统形成了鲜明对比——当前的AI系统只能对请求提供即时响应,无法衡量或优化其行动对环境造成的未来影响。
扎根于环境的行动与观察
人类数据时代的LLM主要聚焦于人类特有的行动与观察,这与自然智能有着天壤之别。在自然智能中,动物通过运动控制和感官与环境交互。动物(尤其是人类)之间的交流行为与其他感觉运动控制使用的是同一个“接口”,而非通过特定的渠道实现。
长期以来,人们已经认识到,LLM也可以在数字世界中主动触发行动,譬如通过调用应用程序接口(API)实现。最初,这些能力主要来自人类使用工具的示例,而非来自智能体的经验。最近,新一代原型智能体已经开始以一种更加通用的方式——使用人类操作计算机所用的相同接口——与计算机交互。这些变化预示着智能体正走向更加自主的交互,在这一背景下,智能体能够独立行动。这样的智能体将能积极探索世界,适应不断变化的环境,并发现人类可能永远想不到的策略。
这些更丰富的交互将为智能体自主理解和控制数字世界提供手段。智能体可以采取“人类友好型”的行动与观察,自然地促进与用户的沟通和协作;也可以采取“机器友好型”的行动,以执行代码、调用API,为实现自身目标而自主行动。在经验时代,智能体会通过数字界面与现实世界交互。比如,科学智能体可以监测环境传感器,远程操作望远镜,或者控制实验室中的机械臂自主进行实验。
灵活调整的奖励
假如经验型智能体不仅能从人类偏好中学习,还能从外部事件和信号中学习,会发生什么呢?
通常,以人为中心的LLM会基于人类的预判来优化奖励机制。这里说的预判是指专家观察智能体的行为并判断该行为好不好,或者在多个备选方案中挑出最出色的智能体行动。这些奖励或偏好是人类在不考虑后果的情况下决定的。这个事实意味着,它们并非直接扎根于现实。而以这种方式依赖人类的预判通常会给智能体的表现设定一个难以突破的上限,使得智能体无法发现那些未得到人类评估者重视的更好策略。为了发现现有人类知识疆域之外的新想法,有必要使用基于实际情况的奖励机制,即根据环境(包括人类)本身的信号来决定。这类奖励衡量的是智能体在环境中的行为产生的影响,往往能提供比人类专家更优质的协助。
原则上,人们能够创造出各种各样的独特智能体,每个智能体都将一个基于实际情况的信号作为奖励进行优化。有观点认为,即便是这样一个单一的奖励信号,如果能被高效优化,也可能催生具备广泛能力的智能。这是因为,在复杂环境中实现单个目标通常需要掌握多种技能。
然而,从表面上看,对于单个奖励信号的追求似乎无法满足通用AI——能够可靠地朝着用户期望的任意行为方向发展——的要求。为此,我们建议基于现实信号,通过用户引导的方式灵活调整奖励机制。这也可以理解为一个双层优化过程:上层优化依赖人类反馈;下层优化则依赖从环境中选择或组合的各种信号。例如,用户可以设定“提升我的身体素质”之类的宽泛目标,此时奖励函数就可能返回基于用户心率、睡眠时长和行走步数的函数值。与此同时,智能体在学习的过程中可以根据用户给予的一些反馈,比如满意度,动态调整奖励函数。通过这种方式,少量的人类数据可以促进大量的自主学习。
突破人类思维的规划和推理
从概念上来讲,LLM可充当通用计算机。在人类数据时代,LLM的推理旨在模仿人类的思维过程。其推理方法还可能被进一步微调,以产生与人类专家认定的正确答案相匹配的思维轨迹。
然而,通用计算机的原理仅涉及智能体的内部计算,并未考虑计算机与外部真实世界之间的关联。在此背景下,一个经过特定训练以模仿人类思维甚至匹配人类专家答案的智能体,可能会受到训练数据中错误思维模式(如错误假设、固有偏见)的影响。要突破这一局限,智能体必须积极与世界互动,收集观测数据,并利用这些现实数据迭代、完善其理解。
2014年以来主要的AI范式演进示意图。纵轴表示RL在整个AI领域所占关注和算力投入的大致比例
建构世界模型是让智能体直接扎根于外部现实的一种可能方法。该模型用于预测智能体的行动对世界产生的影响。譬如说,一个健康管理智能体可能会考虑推荐一家本地的健身房或一个健康主题的播客。智能体的世界模型可以预测采取这一行动后用户的心率或睡眠模式会如何变化,同时预测未来与用户之间的对话内容。这就使得智能体能够依据自身行动及其对世界的因果影响进行直接规划。随着智能体在经验流中继续与世界交互,智能体的动态模型会不断更新,以纠正预测中的错误。有了世界模型,智能体就可以应用可扩展的规划方法来提高其预测性能。
规划和推理方法不是相互排斥的。智能体在规划的过程中可以运用内部LLM计算来选择每一步的行动,或者模拟并评估这些行动带来的后果。
为何现在是经验时代的开端?
从经验中学习并非新鲜事。RL系统此前已经掌握了大量复杂任务,这些任务呈现于有着明确奖励信号的模拟器环境中(大致对应图中的“模拟时代”)。譬如,在双陆棋、围棋、国际象棋之类的棋盘游戏中,在《星际争霸2》《跑车浪漫旅》之类的电子游戏中,以及在数据中心冷却这类资源管理任务中,RL模型通过自我对弈的手段,获得能匹敌或胜过人类的表现。此外,像AlphaZero这样强大的RL智能体在神经网络规模、交互经验数量和思考时长方面展现出了令人印象深刻且潜力无限的可扩展性。然而,基于这种范式的智能体没有跨越模拟环境(存在奖励单一且被精确定义的封闭性问题)与现实场景(存在奖励可能有多个且定义不明确的开放性问题)之间的鸿沟。
人类数据时代提供了一个有吸引力的解决方案。海量的人类数据语料库中包含了适用于各种不同任务的自然语言示例。相比于模拟时代较为有限的成功,基于这种数据进行训练的智能体实现了广泛的能力。因此,经验式RL方法在很大程度上被弃用,人们转而采用更通用的智能体,这就导致向以人为中心的AI的广泛转型。
然而,在这一转型中,智能体丧失了自主发现知识的能力。经验时代会让这种能力与人类数据时代中所达到的任务通用性水平相融合。当智能体能够在现实世界的经验流中自主行动和观察,并且奖励可以灵活关联到基于现实世界的大量信号中的任意一个时,这将成为可能。能够与复杂的现实世界交互的自主智能体的出现,以及能够在丰富的推理中解决开放性问题的强大RL方法的出现,都预示着经验时代即将到来。
机遇与挑战
经验时代的到来所允诺的,是一个与我们以前所见截然不同的未来。这种新范式提供了巨大的潜力,但也带来一些风险与挑战。
积极的一面是,经验式学习会解锁前所未有的能力。在日常生活中,个性化助手会利用连续不断的经验流,在数月或数年的时间里,针对个人的健康需求、教育需求或职业需求调整服务,以实现长期目标。或许最具变革性的影响是科学发现的加速。在材料科学、医学或硬件设计等领域,AI智能体会自主地设计并进行实验。通过不断地从自身的实验结果中学习,这些智能体能够快速地探索新的知识疆域,以前所未有的速度推动新材料、药物和技术的研发。
然而,经验时代也带来了意义重大的新挑战。虽然人类能力的“自动化”有望提高生产力,但这些提升也可能导致工作岗位被取代。智能体甚至有可能习得以前被认为是人类独有的能力,譬如创新、深刻理解现实世界因果关系等高级能力。
此外,尽管任何AI都存在被滥用的可能性,但那些能够在较长时间内自主与外界交互以实现长期目标的智能体可能会带来更高的风险。因为默认情况下,这会减少人类干预和调节智能体行为的机会,需要人类对AI赋予高度信任并承担重大责任。脱离人类数据和人类思维模式也可能使得未来的AI系统更加难以解读。
然而,在承认经验式学习会增加某些安全风险,并且为确保安全过渡至经验时代确实需要开展进一步研究的同时,我们也应该认识到,它可能会带来一些重要的安全益处。
首先,经验型智能体能够感知其所处的环境,随着时间的推移,它会根据环境的变化调整行为。而任何一个预编程的系统,包括固定的AI系统在内,都无法感知它所处的环境背景,也无法适应不断变化的外部世界,因此可能会在环境变化(如硬件出现故障、社会发生剧变或科学技术快速发展)时继续执行过时策略。相比之下,经验型智能体能够进行观察,学会设法规避出故障的硬件,针对快速的社会变化进行调整,或者在接纳新的科学技术的基础上进行发展。也许更为重要的是,该智能体能够认识到自身的行为何时会引发人类的担忧、不满或痛苦,从而进行相应的调整,避免出现负面结果。
其次,智能体的奖励函数本身可以通过经验进行调整,譬如采用双层优化的方法。这意味着,不匹配的奖励函数通常可以通过不断试错逐步得到修正。其过程类似于人类为彼此设立目标的方式,如果人们观察到有人在利用系统漏洞、忽视长期利益或者造成不良后果,就会对目标进行调整。不过,也同人类设定目标一样,即使有这样的自我校正机制,奖励函数依然无法保证完美匹配。
最后,依赖实在经验的进展本质上会受到在现实世界中执行行动、观察结果所需时间的限制。譬如,开发一种新药,即便有AI的协助,依然需要在现实世界中进行临床试验,而这些试验无法在一夜之间就完成。这或许充当了一种天然的“刹车”,可以减缓AI潜在的自我进化速度,为人类提供识别风险、评估后果和进行必要干预的时间窗口。
结论
经验时代是AI演化进程中一个关键时刻。智能体建立在现今强大的基础之上,超越了来自人类数据的局限,会越来越多地从自身与世界的交互中学习。智能体会通过丰富的观察和行动自主地与环境交互,在经验流中持续地调整适应。其目标可以根据任何现实信号的组合来设定。此外,智能体会运用强大的非人类推理方式,根据其行动给环境带来的影响来制定计划。最终,无论是在规模上还是质量上,经验数据都将远远超出人类生成的数据。这种范式转变——伴随着RL算法的进步——会在许多领域解锁超越人类能力的新技能。
资料来源 googleapis.com
_____________________
本文作者大卫·席尔瓦(David Silver)为谷歌 DeepMind首席科学家、英国伦敦大学学院教授;理查德·萨顿(Richard S. Sutton)为2024年图灵奖得主、美国阿尔伯塔大学计算机科学系教授,被称为现代强化学习之父












