Nature：原以为 AI 只会算题，直到它用人类的逻辑闯关心理实验…

给模型起名“半人半马”致敬了希腊神话中上半身为人、下半身为马的怪物

AI应用已渗透人类生活的各方各面，在很多比拼智能的领域，它们可以战胜人类顶尖大师，甚至将领域拔高到人类本不可想象的层次，例如棋弈能手AlphaGo和蛋白质三维结构预测大神Alphafold。

不过AI现有的局限性也显而易见，其中重要一项就是通用性不足、限于特定化任务。例如，人类棋手能每天开车去棋馆，但要叫AI棋手开展驾驶的话，它就抓瞎了。

而在近些年成为行业焦点的通用人工智能AGI，其终极追求正是与人类智能无异的系统，像人类一样执行各种复杂任务的能力，模仿人类又超越人类的通用性和适应性。

这就会引出一个很有趣的话题：一个完全模仿人类智能的AI，是否也应当拥有人类的心智，拥有所谓的“人性”？

根据《自然》杂志7月的最新报道，有国际科学家团队通过将大量原本针对人类志愿者的心理学实验投向AI，使其经受“人性”训练，得到了一个表现出某些人类般心智特征的类ChatGPT系统，名为“半人半马”(Centaur)。

近几十年来，认知科学家建立起复杂的理论体系用以解释人类心智的多种功能，包括学习、记忆、决策等。为验证理论，科学家通过实验观察人类行为是否符合理论预测。

部分理论经得起实践检验，甚至还解释了人类心智的某些独特之处。举个例子，人类通常倾向于确定性选项而非风险决策，即便可能因选择确定性(比如五千元必得收益)而错失高收益的机会(比如有望博得十几万的赌局)。

《自然》新研究的作者之一、德国亥姆霍兹慕尼黑研究中心的认知科学家马塞尔·宾茨(Marcel Binz)表示：“这些理论各自仅解释心智的某一特征，但我们的最终目标是整体性地理解人类心智，并揭示其各方面之间的联系。”

宾茨对ChatGPT等大语言模型有浓厚兴趣，认为它们“展现出某种类人的特质”。“询问任何问题，它们都能给出合理回应。ChatGPT是首个具备些许人类式通用智能特征的计算系统。”

Meta公司于2023年开源的LLaMA(Large Language Model Meta AI)模型是这种通用性的代表，促使宾茨及其团队设想：能否通过训练使其在多维度(而非单一维度)上模拟人类心智？

于是，他们决定让LLaMA学习心理学实验数据。

团队精选了160项心理学实验以提供训练素材，包括来自6万多名志愿者的超1000万条行为反应数据。这些实验涵盖多种认知任务：志愿者在游戏中操控飞船开展太空寻宝；记忆列表上的众多单词；尝试在两台赔率不同的老虎机里博取最大收益……

接着，宾茨等人让LLaMA像人类志愿者一样参与每项实验。当AI系统做出与人类相似的反应时，研究人员给予奖励。“我们本质上是在训练它模仿人类受试者的选择。”

训练得到“半人半马”后，研究团队就要测试其模拟人类心理的水平了。

在首轮测试中，宾茨等人将一些人类志愿者的反应信息抛给AI(此前从未有接触)，结果系统基于已知信息准确预测了志愿者后续的行为。

到游戏测试环节，“半人半马”复刻了人类的智谋。以太空寻宝游戏为例，系统自主开发出与志愿者相同的寻宝策略；不仅如此，当研究人员改变游戏情节，把飞船换成飞毯后，AI与人类的响应一致，都是将原有策略直接转移至新情境。宾茨感叹：“系统展现出显著的泛化能力。”

进入逻辑推理测试环节，机器再现“人性”：人类能答对的题，它也答对；人类容易答错的，它也往往判断有误。

最后，宾茨等人放了个大招——石头剪刀布。2022年的一项关于人类心理学实验曾通过此博弈游戏探索人类如何观察、学习、预判他人的行为模式。这回，要让“半人半马”经历同样的对局。

结果令人惊喜。AI与人类一样，都能观察判断对手的猜拳策略，准确识别对手的行为模式甚至预判其下一步行动；但当研究团队把猜拳对手从真人玩家换成算法后，AI也像人类一样，难以拆解对手策略。

引用宾茨的观点：“‘半人半马’能更准确预测真人对手而非算法玩家的行为，这证明系统确实掌握了人类认知中一些至关重要的东西。”

新成果获得学界高度评价。

斯坦福大学认知科学家拉斯·波尔德拉克(Russ Poldrack)评价道：“这确实是第一个能像人类一样完成各种类型任务的模型，令人印象深刻。”

纽约大学计算机科学家伊利亚·苏霍卢茨基(Ilia Sucholutsky)惊叹：“‘半人半马’的表现显著优于传统认知模型。”

当然，也有部分同行持保留态度。荷兰拉德堡德大学计算认知科学家奥利维亚·格斯特(Olivia Guest)指出，由于研究者构建“半人半马”时未采用任何认知理论框架，其预测结果对人类心智运作机制的揭示作用有限。

印第安纳大学认知科学家加里·卢皮安(Gary Lupyan)强调，他们的终极追求是能解释人类思维的理论。“目标不在预测，而在于理解本质。”

宾茨坦然承认，“半人半马”系统现阶段还无法指向某种新的心智理论，但他也期待这款语言模型成为检验新理论的基准，展现单一模型模拟多元人类行为的高超水准。

宾茨团队正着手将心理学实验数据库规模扩充至5倍于现状的水平，并计划对系统作进阶训练。

资料来源：

Scientists Use A.I. to Mimic the Mind, Warts and All

END

新闻动态