ChatGPT缔造者的独家对话带我们走进这一文化现象的幕后故事。

2022年11月下旬,当OpenAI在没有任何前期宣传的情况下推出ChatGPT时,这家总部位于旧金山的人工智能公司几乎没有抱什么期待。毫无疑问,OpenAI内部没有人能预料到ChatGPT后来能像病毒那样广泛传播。从那以后,这家公司就一直在努力利用ChatGPT的成功。

在OpenAI从事政策工作的桑蒂尼 · 阿加瓦尔(Sandhini Agarwal)说,当初发布ChatGPT时,公司内部更多把它看作“预研项目”。这显然是一种调侃,实际上,ChatGPT在公开之前两年就已经诞生了,只是正式向大众发布的版本更加完善而已,更重要的是,开发团队希望通过收集公众的反馈来消除它的一些缺陷。参与ChatGPT开发的OpenAI科学家利亚姆 · 费杜斯(Liam Fedus)说:“我们不想把它夸大为一项重大的基础进步。”

为了了解ChatGPT背后的故事——它是如何制作的;自发布以来,OpenAI是如何更新它的;开发团队对这款聊天机器人的成功有何感想——我采访了四位相关人士,他们都参与开发了这款堪称有史以来最受欢迎互联网应用程序之一的杰作。除了阿加瓦尔和费杜斯,我还采访了OpenAI的联合创始人约翰 · 舒尔曼(John Schulman)和OpenAI合作团队负责人简 · 雷克(Jane Leike),他们的工作是让人工智能程序按照用户的要求做事(仅此而已)。

采访结束后,我的感觉是, OpenAI团队仍然对ChatGPT这个“预研项目”的成功感到困惑,但他们已经抓住机会推动这项技术向前发展,观察数百万人如何使用它,并努力解决出现的最严重问题。

从去年11月开始,OpenAI已经对ChatGPT进行了数次更新。研究人员正在使用一种叫作“对抗性训练”的技术阻止用户通过欺骗手段诱使ChatGPT做出不良行为(这种现象叫作“越狱”)。这项技术让多个聊天机器人互相对抗:一个聊天机器人扮演对手,通过生成文本来攻击另一个聊天机器人,诱使后者违背常规约束进而作出开发团队不希望看到的反应。成功的攻击文本会被添加到ChatGPT的训练数据中,以期它能学会忽略这些欺骗手段。

OpenAI还与微软签署了数十亿美元的协议,并宣布与全球管理咨询公司贝恩结盟,后者计划在包括可口可乐在内的客户营销活动中使用OpenAI的生成式AI模型。在OpenAI之外,围绕ChatGPT的热议掀起了围绕大型语言模型的又一波淘金热,全球范围内的公司和投资者都争先恐后加入了这一行动。

这一切都发生在ChatGPT发布后短短三个月的时间内,可谓声势浩大。ChatGPT从何而来?OpenAI采取了哪些措施确保它做好了发布准备?他们下一步又要怎么走?以下就是我的采访内容。

雷克:说实话,ChatGPT如此成功让我不知所措。我们很惊讶,也一直在努力迎头赶上。

舒尔曼:在ChatGPT发布后的几天里,我经常查看各类手机社交应用。最疯狂的一段时期,推送里到处都是ChatGPT的截图。在发布之前,我期待它能做到在公众看来的直观,期待它能收获一些拥趸,但我绝对没有想到它竟然能这么受欢迎。

阿加瓦尔:竟然有这么多人开始使用ChatGPT,这对我们所有人来说都绝对是惊喜。我们在相关模型的细节上投入了太多的精力,以至于有时会忘记它们能给外界带来多么大的惊喜。

费杜斯:大家对ChatGPT的反响如此热烈,我们真的非常惊讶。之前也有很多通用聊天机器人领域的尝试,所以,发布之前,我觉得我们的胜算不大。不过,内部测试给了我们信心,我们有了一些人们可能真正喜欢的东西。

雷克:我很想深入了解是什么推动了这一切——是什么推动了ChatGPT的病毒式传播。老实说,我们也不明白。我们不知道。

开发团队困惑不解的部分原因在于ChatGPT使用的大部分技术都不是新的。ChatGPT是GPT-3.5的微调版本,而GPT-3.5则是OpenAI在ChatGPT公开前几个月发布的一系列大型语言模型。GPT-3.5本身则是GPT-3的更新版本,后者诞生于2020年。OpenAI公司将这些模型作为应用程序编程接口(API)发布在网站上,于是,其他软件的开发人员就可以轻松将模型插入自己的代码。2022年1月,OpenAI还发布了GPT-3.5之前的一个微调版本,名为InstructGPT. 不过,ChatGPT之前的这些技术版本都没有公开。

费杜斯:ChatGPT使用的语言模型与InstructGPT基本相同,只不过做了一些微调——实际上,我们微调所有模型时使用的方法都是类似的。我们增加了一些会话数据,并调整了部分训练过程。所以我们不想把这夸大为一项重大基础进步。当然,事实证明,会话数据确实对ChatGPT产生了很大的积极影响。

舒尔曼:根据标准基准测试的评估,各个模型的原始技术能力其实并没有很大差异,但ChatGPT更容易访问和使用。

雷克:从某种角度上说,你可以把ChatGPT理解为某个AI系统的一个版本,而这个AI系统我们已经推出多时了。ChatGPT在本质上并不比我们之前开发的模型功能更强大。在ChatGPT出现之前的近一年时间中,类似的基本模型已经以API的形式可为软件编写工作人员使用了。从另一种角度上说,我们让ChatGPT变得更适合完成人类向它下达的任务。它和你对话,它在聊天界面中很容易访问,它努力为你提供帮助。这是惊人的进步,我认为人们正在逐渐意识到这一点。

舒尔曼:ChatGPT更容易推断出用户的意图。用户可以通过反复询问来获得他们想要的东西。

从内容上说ChatGPT的训练方式与InstructGPT非常相似,使用的是一种叫作人类反馈强化学习(RLHF)的技术。这就是ChatGPT的秘密武器。这项技术的基本思想是采用一个大型语言模型,这个模型总是会给出任何ChatGPT想要的东西——在训练ChatGPT的过程中,使用的是GPT-3.5——并且教授ChatGPT人类用户真正喜欢的回应是什么样的,从而作进一步调整。

雷克:我们让一大群人阅读ChatGPT的提示和回应,接着让他们判断某种回应是否比另一种更可取。然后,我们把所有这些数据合并到训练过程中。大部分训练过程和我们对InstructGPT做的一样。你希望它能变得有用,你希望它能变得真实,你希望它给出的回应无害。再之后,还有一些东西是为产生对话并帮助人类解决问题而特别设计的:比如,如果用户的询问含义不清,它应该进一步追问。它还应该澄清,自己是一个AI系统。它不应该假设自己拥有某种实际并不具备的身份,它不应该声称拥有某种实际并不具备的能力,当用户要求它完成不应该执行的任务时,它必须撰写拒绝信息。在这次训练中出现的一句用语是“作为一个由OpenAI训练的语言模型……”,虽然这句话起初并不是如此明确,但后来的确成了人类评分员高度评价的细节之一。

阿加瓦尔:是的,我觉得就是这样。人类评分员必须根据各种不同标准对模型排名,比如真实性。但他们现在也开始偏爱那些他们认为是好的做法,比如不伪装身份。

因为ChatGPT是OpenAI开发团队用之前使用过的技术构建的,所以在准备向公众发布这个模型时,开发团队并没有做任何特别的事情。他们觉得自己为之前的模型设定的标准已经足够了。

阿加瓦尔:准备发布ChatGPT的时候,我们并没有把这个模型看作全新的风险。GPT-3.5之前就出现并投入应用了,我们知道它足够安全。而且通过ChatGPT接受的人类偏好训练,这个模型自动学习了拒绝行为,因而会“自主”拒绝很多请求。

雷克:我们确实为ChatGPT做了一些额外的“审查”工作,OpenAI的每个人都静下心来,思考这个模型可能存在的漏洞在哪儿。同时我们请了外部团队做同样的事情。我们还开辟了一个早期试用项目,让那些值得信赖的用户给出有价值的反馈。

阿加瓦尔:我们确实发现ChatGPT会给出一些我们不希望看到的回应,但这些也都是GPT-3.5会产生的东西。因此,就风险而言,作为“预研项目”——我们当初向公众发布ChatGPT本来就是为了这个目的——它给我们的感觉已经足够好。

舒尔曼:不能等到你的系统完美了之后才发布。我们对ChatGPT的早期版本进行了几个月的Beta测试,测试者对产品的印象很好。我们最担心的是真实性,因为这个模型喜欢捏造东西。但是我们已经拥有了InstructGPT和其他大型语言模型,而且它们并没有捅什么大篓子,所以我们认为只要ChatGPT在真实性和其他安全问题上比那些模型更好,它就具备了向公众发布的条件。在正式发布之前,根据相对有限的评估,我们确认了ChatGPT的模型确实比其他模型看上去更真实、更安全,所以我们决定大胆向公众发布。

自推出ChatGPT以来,OpenAI一直在观察人们的使用方式,开发团队第一次看到了大型语言模型在数千万量级用户手中时的表现——其中必然有某些用户希望测试它的极限并发现它的缺陷。OpenAI开发团队目光紧紧盯住ChatGPT产出的最有问题的内容——从内容不良的歌曲到窃取信用卡号码的恶意软件代码——并以这些错得离谱的结果作为调试所用模型未来版本的基准。

阿加瓦尔:下一步,我们还有很多事要做。我绝对相信,ChatGPT的病毒式传播会让我们之前就知道存在的许多问题真正浮出水面,并且成为后续改进的关键——那些一定都是我们希望尽快解决的重要问题。例如,我们知道这个模型仍然存在很大偏见。是的,ChatGPT非常擅长拒绝糟糕的请求,但它也很容易在接受用户提示后不再拒绝我们希望它拒绝的东西。

费杜斯:看到用户根据ChatGPT开发的各种创新应用程序令人兴奋,但我们一直专注于需要改进的领域。我们认为,通过积极部署、获取反馈和不断改进的迭代过程,我们可以生产出最通用、最强大的技术。当然,随着技术的发展,不可避免地会出现各种新问题。

阿加瓦尔:在ChatGPT发布后的几周里,我们研究了用户发现的一些最糟糕的例子,人们在实际使用过程中找到的最严重的问题。我们评估了每一个问题,并讨论了应该如何修复。

雷克:有时候是一些在社交应用上疯传的问题,但我们其实也安排了一些人员静悄悄地把发现的问题反馈给我们。

阿加瓦尔:我们发现很多问题本质上都是越狱,这绝对是我们需要解决的问题。不过,因为用户必须尝试那种折腾到令人费解的方法才能让ChatGPT模型说出不好的内容,所以严格来说,对于这些问题的出现,我们并没有感到特别惊讶,实际上在开发过程中也并没有完全忽略这些缺陷。当然,我们现在正在积极解决这类问题。发现越狱问题时,我们会把它们添加到训练和测试数据中。所有这些数据都会输入到未来的模型中。

雷克:每当开发出更好的模型,我们都想把它公布出来进行测试。我们非常乐观,一些有针对性的对抗性训练可以大大改善越狱的情况。目前还不清楚这些问题是否会完全消失,但我们认为应该可以让很多越狱方法变得更难奏效。还是要强调一下,在正式发布之前,我们并不是不知道存在可以越狱的漏洞。我觉得,一旦部署了系统,就很难预料真正的安全问题在哪里。所以我们非常重视监测人们使用这个系统的目的,看看实际会发生什么,然后再做出反应。这并不是说,当我们预见到安全问题时,不应该主动采取缓解措施。但是,没错,当一个系统进入现实世界时,我们很难预见实际会发生的一切。

2023年1月,微软公布了Bing Chat,这是一款搜索聊天机器人,很多人认为它是OpenAI官方未公布的GPT-4的一个版本。(OpenAI表示:“为Bing Chat提供支持的是我们为微软定制开发的一款专用于搜索的新一代模型。它融合了ChatGPT和GPT-3.5的先进技术。”)拥有数十亿美元声誉的科技巨头使用聊天机器人,给那些负责构建底层模型的人带来了新的挑战。

阿加瓦尔:现在的赌注肯定比六个月前高了很多,但仍然低于一年后可能达到的水平。很明显,这些模型真正重要的一点是它们的使用环境。同谷歌和微软的搜索引擎一样,即使有一件事不符合事实也会成为一个大问题,因为用户使用它们的目的本来就是搜索事实信息。为像搜索这样的任务而开发的大型语言模型需要实现的功能与设计目的仅仅是跟用户闲聊的有趣聊天机器人显然大相径庭。我们需要弄清楚如何在满足各种需要的过程中实现平衡,如何创造一些对身处各种环境中的用户都有用的东西。要知道,在不同环境中,用户期望ChatGPT作出的回应很可能会有差异。这当然让我们背上了更多压力。因为我们现在知道,我们现在构建这些模型的目的是让它们转化为产品。ChatGPT现在已经是一个产品了,因为我们有了API,我们现在构建的是一种通用技术,我们需要确保它在任何情况下都能很好地工作。这也是我们目前面临的主要挑战之一。

舒尔曼:我低估了人们探究和关心ChatGPT政治的程度。我们本可以在收集训练数据时做出更好的决策,这样就可以减少这方面的问题。当然,我们现在正在努力思索应对方法。

雷克:我个人认为,ChatGPT在很多方面都难言成功——还有太多的事要做。我觉得我们还没有彻底解决这些问题。我们内部所有人都必须非常清楚这项技术的局限性——同时还要让广大用户知晓这一点。我的意思是,语言模型已经存在了一段时间,但它仍然处于发展的早期阶段。我们知道它们存在的所有问题。在我看来,我们必须非常坦率地让公众知晓这些问题,不要让大家产生不切实际的期待,并且明确ChatGPT仍处于发展之中,并非成品。

资料来源 MIT Technology Review

——————

本文作者威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工技术评论》(MIT Technology Review)的高级编辑,主要写作方向为人工智能