从大语言模型(LLMs)到图像生成,甚至再到视觉语言模型,人工智能现已取得非凡成就,眼下又站在AI演进新篇章的起点处。

根据大卫·席尔瓦(David Silver)和理查德·萨顿(Richard S. Sutton) 这两位强化学习领域先驱的最新论文,AI正向所谓的“体验时代”(The Era of Experience)转变。

本文会以浅显的语言解析他们的观点,阐述这一转变的意义、形态及其将如何重塑未来。

微信图片_20250615070938

大卫·席尔瓦(左)和理查德·萨顿(右)

现在,仍为人类数据时代

当前的AI系统,例如LLMs,其驱动力源于海量的人类生成数据,包括书籍、网页、社交媒体帖子……这些模型通过研究人类的案例与偏好进行学习,从而胜任写作、编程甚至医疗诊断等任务。这就好比,将一纵奇才丢入一座人类知识的巨型图书馆学习,然后奇才学会了一切。

这种模式非常成功。如今单一AI模型便能应对从归纳法律文档到求解物理问题的各式任务。但问题在于,仅依赖人类数据存有局限性

席尔瓦和萨顿的论文指出:可用于训练模型的高质量人类数据即将枯竭。更重要的是,人类数据只能让AI学会已知知识。若希望它探索新领域,例如突破性科学理论或创新技术,必须让AI超越现有图书馆的边界。

在未来的体验时代,机器像人类一样学习

那么,下一步要做什么?作者提出,AI应当像人类和动物一样从经验中学习。具有主动思考和行动能力的AI,即所谓的“人工智能体”/“人工智能代理”(AI Agent)将走上舞台,它们不再被动接受现存数据,而是与环境互动,采取行动,观察结果,持续优化进步。这种体验式学习正是AI体验时代的核心。

不妨试想我们学习骑自行车的过程:你并非通过阅读手册来掌握技巧,而是不断尝试、跌倒、调整、再尝试。每一次实践都带来新领悟。同理,AI代理的学习过程也是“实干”——在数字环境(如计算机系统)或现实世界(借助传感器或机械臂)中自主生成数据。

席尔瓦和萨顿的论文以AlphaProof为例:这款由谷歌DeepMind开发的基于强化学习的形式化数学推理AI系统,在国际数学奥林匹克竞赛中拿下银牌。它最开始依靠的基础是少量由人类创造的数学证明;但通过强化学习(一种体验式学习),在与数学系统的交互中,AlphaProof自主生成了数以百万计的新证明。这让我们看到了AI代理在人类知识边界以外解决难题的潜力,也领略到体验式学习的巨大潜力。

微信图片_20250615070943

上图所示为主流AI范式发展历史的简图。纵轴表示该领域用于强化学习的总体工作量和计算量的比例

体验时代有何特点?

席尔瓦与萨顿阐述了定义AI体验时代的四大关键特征:

1. 持续体验流

当前AI的运作模式通常是你一言我一句,用户提问,AI应答,答案给出,交互结束。系统既不存档交互记忆,也不具有长期目标。而在体验时代,AI代理将于持续的体验流(streams of experience)中运行,在数月甚至数年时间里不断学习与适应。

以AI健康助手为例:只要连接上智能手表,此助手便能追踪用户的睡眠、运动和饮食情况,日积月累,逐步洞悉怎么做才最有利于用户。AI可能建议微调作息时间,并根据用户的身体反馈持续优化方案。这种长期视角使AI能追求更宏大的目标,比如改善用户整体健康状况,帮助用户学一门新语言。

2. 各种行动,各种观察

现阶段AI主要通过文本来交互——读取指令或输出回答。而到了新时代,AI会更像动物更像人类,通过丰富的动作(如操控机械臂或运行代码)和观察(如读取传感器数据或监测电脑界面)来运作。这样的AI更具自主性,能以人类想不到的方式探索世界。

例如,一个科研AI能操控实验设备以测试新材料,能观察测试结果,也能在无需人类指令的情况下自行调整实验。它在现实世界里直接行动,有机会发现超乎人类想象的策略。

3. 基于现实的奖励

目前AI的表现评价主要基于人类反馈,比如人类给AI的回答打分,或是从AI提供的选项里挑出最佳方案。但这种模式把人工智能限制于人类已有认知的框架内。进入体验时代,AI将采用基于现实的奖励机制——直接从环境获取反馈

例如,健身专用AI可通过监测用户心率或步数来自行评价自己的建议有用与否,而无需人类评分。又例如,科研AI则可以通过检测二氧化碳浓度来评判自己的气候解决方案成效如何。来自真实世界的反馈信号使AI能针对实际效果做优化,不限于人类的主观评价,进而拓展知识的边界

4. 非人式推理与规划

现在的大多数AI系统仍然模仿人类思维模式,例如用文字表述推理链条。这样的方式效果不错,但正如席尔瓦和萨顿所言:人类语言并非人工智能最高效的思考方式。新时代AI将发展出非人类式的推理方法,采用符号或计算等可能无法被人类理解的表达形式。

此外,AI将利用所谓“世界模型”来预测自身行为对世界的影响,从而进行规划。例如,健康专用AI或可预测新饮食方案对用户体能的影响,再根据实际效果调整计划。这种锚定现实的行事风格,有助于AI规避人类的偏见,探索全新的思维方式。

为何是此刻?

体验式学习并非全新概念。AI早前已于受控环境下体验过它,比如棋盘游戏(以精通国际象棋的AlphaZero为代表),或是针对数据中心冷却的优化工作。但这些都属于规则清楚、回报明确的细分任务。体验时代的突破在于将这种方法拓展至复杂开放的真实世界。

技术进步是一切可能的前提。眼下AI已能驾驭计算机控制、实验设备操作等复杂情境;强化学习算法的进展使AI能处理开放式问题。席尔瓦与萨顿指出,我们正站在临界点上——这些工具即将释放超人类的智能,推动科学、数学、工程等领域的创新突破。

前景与挑战

体验时代或将重塑人类生活。试想:

“个性化定制”的AI助手始终围绕用户需求,经年累月地调整与适应,帮助用户保持健康,学习新技能;

AI能自主实验,比人类研究者更快速地发现新材料或新药物,进而驱动科学突破

AI凭借现实经验优化制造、物流等流程,助力产业效能提升

当然,能力越大,责任越大。席尔瓦和萨顿的论文也点明了三大挑战:

机替人岗:AI承担复杂任务可能砸掉一部分人类的饭碗;

安全风险:长期自主运作的AI可能做出难以被人类监管的决策;

解读难题:具有非人类的思维模式,使得AI更难以理解。

不过体验式学习也有其安全优势。能适应环境的人工智能在面对诸如系统故障或社会变迁之类的变化时,会有之策应对。它还可以根据人类的反馈调整目标,以降低出现意外后果的风险——关于这类意外后果,一个经典猜想来自哲学家尼克·博斯特罗姆(Nick Bostrom)提出的“回形针最大化”理论,即人工智能深陷于对单一目标的执着追求,可能因此引发极端后果?

走向体验式未来

体验时代是人工智能的宏伟愿景。AI跳出人类数据的局限,在与现实世界的交互中学习,然后达到超乎想象的智能水平?这样的变革太激动人心了,而它的基石是强化学习领域数十年的研究积累及其与超强AI系统的结合,我们终将看到兼具自主性、适应性与真正智能的人工智能体。

在这步入新时代的关键节点上,人类需在挖掘潜力与审慎监管间寻求平衡。席尔瓦和萨顿呼吁持续开展研究,确保AI发展始终安全可控且符合人类价值观。若能实现理想的平衡,体验时代有望引领人类进入探索发现的黄金时代,AI或将助力我们攻克一些重大挑战。

此刻,方向是明晰的:AI的下一场飞跃不再由人类数据驱动,而会通过机器,如人类般,从实践中学习。

本文基于大卫·席尔瓦(David Silver) 和理查德·萨顿(Richard S. Sutton) 的论文《欢迎来到体验时代》(Welcome to the Era of Experience)。该文章是由麻省理工学院出版社出版的《设计智能》(Designing an Intelligence)一书中的一个章节。

资料来源:

Welcome to The Era of Experience

END