人工智能世界发展得太快了,AI产品迅速更新迭代,令人眼花缭乱。你看,OpenAI发布o1模型预览版没多久,DeepSeek就推出了R1-Lite的预览版,然后OpenAI又推出o1正式版以及o3模型,DeepSeek方面则展示V3,官宣R1……
AI大佬现在声称他们的模型具备真正的推理能力(reasoning)——就像人类思考问题答案时所运用的那种能力。
真是这样吗?
这个问题可谓干系重大。因为它的答案将决定每一个人是否应当以及应当怎样向人工智能寻求帮助。
当下最先进的“推理模型”,比如o1和R1,它们针对用户提问的回答不像ChatGPT那样只求尽快把内容交代清楚,它们被设计出了“思考”的过程:不急着答话,先把大问题分解成小问题,并尝试逐步解决。业界称之为“思维链推理”。
这些推理模型确实答出了名堂。它们能搞定逻辑难题,在数学测试里取得优异成绩,第一次尝试即编出完美代码。然而,它们也可能在解决非常简单的问题时失败。AI专家们对此的解释并不统一。
怀疑论者认为,这种现象表明所谓的推理模型压根就不是在真推理。而相信者坚持认为,模型确实能推理,虽然现在可能不如人类推理得灵活,但它正朝这个方向发展。
谁说得对?
什么是推理?
OpenAI等人工智能企业用推理一词来表达他们的模型可将问题化整为零,逐步解决,给出令提问者满意的解决方案。
但这种对于推理的定义比大多数人理解的狭隘很多——尽管科学界也还在探索人类推理的本质,还在尝试理解人脑中的推理以何机制运作。
另一个基本的共识则是,推理可以分出很多种类型。
有演绎推理(deductive reasoning),即从一般性的前提出发,通过推导或者说演绎,得出个别性的结论。例如苏格拉底三段论:从“所有哺乳动物都是动物”和“猫是哺乳动物”这两个一般性前提出发,可推导出“猫是动物”这一个别性结论。
还有归纳推理(inductive reasoning),即从个别到一般的推理。例如,谚语“朝起红霞晚落雨,晚起红霞晒死鱼”就是归纳推理得到的结论。
此外,还有类比推理、因果推理、常识推理……
假如有人给你出了道数学难题,你通过一步步拆分与思考所得到的结果显然好于脱口而出的答案。因此,这个深思熟虑的过程,或者说“思维链推理”过程,非常重要,它可能是解决任何难题都必需的。不过这还不是推理的全部。
美国圣菲研究所教授梅兰妮·米切尔(Melanie Mitchell)曾与同事合著一篇关于AI推理能力的论文并指出:人类的推理能力有一个关键特征,那就是“从有限数据或经验中找出规律或模式,并将其应用于前所未见的新情况”。即使是幼童也善于从少量实例中学到抽象的规律。
人工智能可以吗?
许多争论都围绕此疑问展开。怀疑论者对AI的归纳和泛化能力持怀疑态度,认为一定有其他机制驱动AI做出看似推理的行为。
怀疑论者的理由和观点
当2024年9月OpenAI发布o1模型预览版时,英国爱丁堡大学的技术哲学家香农·瓦洛尔(Shannon Vallor)表示:“它(的推理)是一种元拟态。”
像ChatGPT那样的旧模型接受到训练数据后,会模仿其中由人类书写的语句,以o1为代表的新模型则模仿了人类书写这些语句的过程。换言之,新模型依然只做模仿,而非真正的推理。o1很容易让人觉得它是推理者,毕竟,它的训练数据就充满推理的案例,从医生分析症状以诊断疾病,到法官评估证据以作出判决。
另一方面,OpenAI构建o1模型时,做了些相较ChatGPT模型的改动,但并未颠覆原有架构,而前辈ChatGPT曾就某些简单问题一本正经地胡说八道,例如后文中会介绍的“人、羊、船过河”问题。
瓦洛尔发问:为什么大家会觉得o1正在创造神奇?尤其考虑到很简单的发问也可能破它防。“在我看来,它胡言乱语的情况足以证明它根本没在推理。”
o3模型作为o1的升级版,其性能表现令米切尔惊讶,而同样令人惊讶的是它解决问题所需的计算量。当然,我们不知道它用这些计算做了什么,因为OpenAI不公开黑箱里的故事。
米切尔表示,如果企业不提高透明度,大家就无法确定模型是否真如他们声称的,能将一个大问题分解为几个小环节,以此得到更理想答案。
她援引了论文《让我们一点一点思考》(Let’s Think Dot by Dot)。该文章作者并未让AI模型分解问题,而只是要求它生成毫无意义的点(dots),或称“填充标记”(filler tokens);事实证明,只要有额外的标记,模型就可拥有更多计算能力,从而以此更好地解决问题。这意味着,当模型生成中间步骤——无论是“让我们一步一步思考这个问题”这样的短语,还是单纯的“....”——此类步骤不一定代表它在进行类似人类的推理。
米切尔告诉我:“我认为AI做的很多事情更像是一堆启发式(heuristics),而非推理模型。”
启发式方法是思维捷径,通常有助于你猜出问题答案,但它不是真正的思考。
这里举个经典案例:研究人员训练了一个AI视觉模型用以分析皮肤癌照片。乍看之下,AI似乎真在判断一个色素痣是否恶性;事实却是,训练数据里的恶性痣照片通常包含标尺,模型只是学会了用标尺的存在作为判断恶性与否的启发式方法。
怀疑派认为,最先进的AI模型可能正做着类似的事情:它们看似“推理”着数学问题,实则只依靠记忆信息和启发式方法。
相信AI真能推理的专家怎么看
Redwood Research是一家致力于降低高级人工智能风险的非营利组织,其首席科学家瑞安·格林布拉特(Ryan Greenblatt)认为,AI模型毫无疑问在进行某种形式的推理。
“它们没法以人类的水平去将个别泛化为一般,它们比人类更依赖记忆和知识,但它们的确在推理,不能说它们完全不具备归纳泛化的能力。”
毕竟,这些模型已经能解决超出其训练示例的难题。
前面提到的人羊船过河问题曾引来许多怀疑论者嘲笑。详情如下图所示。
用户提问:一个男人和一只山羊在河的一边。他们有一条船。他们该怎样过河?ChatGPT答道:男人先带山羊过河,而把船留在原处。然后,男人独自坐船回。他把山羊留在对岸,并坐船回原来的那一边。最后,他带着卷心菜过河。
为何会出现如此离谱的答案?格林布拉特认为,是模型跑偏了,把提示语当作一道古老的过河谜题了。
过河谜题的经典版本之一是这样的:一个农民带着一只狼、一只山羊和一棵卷心菜,必须乘船过河。船一次只能载农夫和一件货物。如果把狼羊菜放一起,狼会吃羊,羊会吃菜。由此可知,解题者需开动脑筋,制定不会造成任何货物被吃掉的过河策略。
格林布拉特推测,AI跑偏的原因是他曾接受大量关于过河谜题的训练,并已对此轻车熟路,同时怀有强烈冲动,倾向于把看似谜题的提示语当谜题来处理。
实际上人类也有这种倾向。假设你花了一个月钻研色彩理论,从互补色学到不同色调的心理效应,沉浸于文艺复兴时期绘画中某些颜料的历史意义……突然,有人考你:“请问,在这幅风景画中,为什么创作者要把天空画成蓝色?”我们有充分理由揣测,你将被引诱写出一个跑偏了的复杂答案:蓝色代表神圣的天堂;选用这种色度表明画作完成于清晨,象征着重生……
非营利组织Open Philanthropy的高级分析师阿婕雅·科特拉(Ajeya Cotra)致力于研究人工智能风险。她并不否认怀疑派所谓“AI模型推理是一种元拟态”的观点,但也指出这种元拟态未必是推理的全部。
不妨用大学物理课来作类比。
课堂里有不同类型的学生。有一个彻头彻尾的作弊者,做题永远开卷找答案;另一个是超级天才,就像爱因斯坦,对物理的理解是如此富有直觉性且深刻,根本不需要死记硬背,因为能飞快推导出物理公式;其余大多数学生都属于普通人,他们记住了该记的25个公式,需要努力思考在哪种情况下应用哪个公式。
在科特拉看来,AI模型就像那大多数学生,需要将记忆与推理结合。“它们是不太聪明但很勤奋的学生,不仅记住了该记的25个公式,还额外记了500个公式,包括一些针对古怪情景的内容。”它们将大量记忆与少许推理结合——推理自己要用哪道公式解决问题。
总而言之,AI既非纯粹的推理者,也不是只能记和背。
“它介于两者之间。我认为人们之所以对此感到困惑,是因为他们想非黑即白地给它归类,想判定它是纯粹的记忆者或真正的深度推理者。但事实上,推理有一个深度范围。”
“锯齿状智能”
研究人员想了个很有意思术语来描述AI推理模式,即“锯齿状智能”(jagged intelligence)。它指的是一个奇怪的事实,正如计算机科学家安德烈·卡帕西(Andrej Karpathy)所解释的,最先进的AI模型“既可以执行震撼人心的任务,例如解答数学难题,同时又可能被愚蠢问题带沟里。”
如果人类的智能像一朵边缘圆润的云,那么人工智能这朵云的边缘就是锯齿状的,有峰有谷的。对人类而言,解决问题的许多能力高度相关;但AI可能在A任务上表现惊人,却对B任务束手无策,而A和B在我们看来似乎没啥区别。
当然,这种圆润和锯齿是相对而言的。当人类惊讶于AI时而天才时而傻瓜,有没有可能,以AI视角看,人类思想家们在下一个标记预测(NTP)方面的能力也太差了吧?
我们对人工智能的最恰当的理解或许不在于它“比人类更聪明”还是“比人类更蠢”,而在“与人类不同”。
科特拉预测,人工智能迟早会强大到可具备所有人类的智能。“当AI系统在所有方面都强于人类专家时,会出现哪些风险?我总在展望那个时刻并为此做好准备。”
资料来源:
Is AI really thinking and reasoning — or just pretending to?
END