4.1

1999年,也就是英国计算机科学家蒂姆 · 伯纳斯-李(Tim Berners-Lee)爵士发明万维网的十年之后,他为这个作品构想了一种智慧版本。在新版本的万维网中,日常生活的不少事情——譬如搜寻信息、拟定计划、处理一般任务——不会由人类来完成,而是会由“智慧代理”来完成。这些“智慧代理”就是能够阅读、理解和行动的机器。互联网自从发明之日起,已经有了突飞猛进的进化,然而使用体验始终基于手工——用户在购物、阅读或观看内容之前,依然要打字、点击和浏览。

如今,人工智能(AI)可能使得蒂姆爵士的梦想触手可及。现在的大语言模型(LLMs)能够概括文件、回答问题和推理。它们目前做不了的是行动。然而,这种情况正随着提供LLMs工具的“智能体”软件出现而改变。这些工具让“智能体”软件不仅能生成文本,还能够执行任务。

改变始于2022年ChatGPT的推出。许多用户开始向聊天机器人提出各种问题,从而汲取可能散布于网络各处的信息,不再需要将关键词输入搜索引擎。然而,这样的“答案引擎”几乎仅仅触及“智能体”的皮毛,未充分发挥它的潜能。微软公司的首席技术官凯文 · 斯科特(Kevin Scott)是一位软件巨擘,他认为能够处理更复杂任务的智能体“并不那么遥远”。但是,智能体若是要接手更多工作,那么互联网的底层基础设施必须改变。

一个核心的障碍是语言:要给予智能体某种与在线服务和其他智能体对话的方式。通常来说,一个网址或在线服务与外部世界通过应用程序接口(API)对话,API告诉访问者它能做些什么,譬如预约医生或提供地图定位。然而,API是为人类而写的,每种API都具有自己的一套怪异模式和解释文件。这对AI智能体而言是一个困难恶劣的环境,因为智能体是以自然语言(程序代码是人造语言)进行推理。

和每一个新的API打交道都需要学习它的“方言”。因而,为了在互联网上独立自主行动,智能体就需要一种标准化的交流方式。这就是一家名叫Anthropic的AI实验室开发上下文协议(MCP)模型的目的所在。Anthropic的首席产品官麦克 · 克里格(Mike Krieger)说,这个模型的构思是在他们将旗下的聊天机器人Claude与电邮平台Gmail、代码仓库GitHub之类的服务相连接时诞生的。这家公司没有以个案处理的方式将每个应用与Claude整合,而是想要以一套共享的规则来帮助智能体直接取用用户的电子邮件或文件。智能体不会研究技术指南,而是能够向MCP服务器询问系统能做些什么,譬如预订航班、取消订阅、办理退款等等,再代表用户采取行动,无须动用该系统的独家定制代码。

例如,你想要预订一趟从伦敦到纽约的旅程。你先是把你的旅行计划交给一个旅程智能体,后者接着把任务细分给专门的智能体,由它们去寻找航班、酒店和租车信息。这些智能体联系航空公司、酒店和租车公司的MCP服务器,收集信息,比较各种备选方案,生成潜在行程单的列表。一旦你选中某个行程方案,旅程智能体就会预订机票、酒店和租车。

这类合作需要一定的规则,各个智能体要依照这些规则来确定彼此身份、实现交流和达成互信。谷歌公司提出的解决方案是针对这一目的开发的智能体对智能体(A2A)协议。智能体能通过这一协议向彼此宣传它们的能力,商议哪个智能体执行什么任务。初创公司Arize AI的主管劳里 · 沃斯(Laurie Voss)说,各家公司处在一场“大抢夺”中,争着要确定智能体网络的主导标准。被最广泛采用的协议会让协议背后公司的工具更好、更快地完成更多任务。2025年12月9日,Anthropic、OpenAI、谷歌、微软及其他公司宣布成立智能AI基金会,该基金会将会为AI智能体制定开源标准。Anthropic公司的MCP会成为标准的一部分,这标志着它作为智能体交流的行业标准,得到更广泛的采纳。

然而,这些智能体遨游的网络大部分都是为人类眼睛而建的。寻找一款产品依然意味着,要点击穿梭于不同菜单。为了让LLMs更加容易地访问网址,微软公司已经构建了自然语言网络(NLWeb),该网络能让用户以自然语言与任何网页“聊天”。譬如说,用户可以向某个旅行网站的NLWeb接口询问该带着三个小孩去哪儿度假,或者某个特定地区最好的酒店有哪些。传统的搜索方式可能需要在多个菜单逐个点击位置、场合和风格的选项,而NLWeb能捕捉自然语言句子中的完整意图,并给出相应的答复。每个NLWeb网址也能充当MCP服务器,将它的内容透露给智能体。从而,NLWeb在现代视觉互联网和智能体之间架设起一座桥梁。

资料来源 The Economist