AI能够评议科学文献吗？

发布时间：24年12月28日

编译苦山

人工智能有助于科研人员快速总结研究成果，但也伴随着风险。

在萨姆 · 罗德里克斯（Sam Rodriques）还是一名神经生物学的研究生时，他突然意识到了科学存在一种基本的局限性。他说：“即使研究人员已经得出了理解人类细胞或大脑所需的所有信息，我也不确定我们是否能知晓这件事，因为没有人有能力理解或阅读所有的文献并获得全面的观点。”

5年后，罗德里克斯说，借助人工智能（AI），他离解决这个问题更近了一步。2024年9月，他和他在美国初创公司未来之家（FutureHouse）的团队宣布，他们开发了一套基于人工智能的系统，可以在几分钟内生成比维基百科页面更准确的科学知识综述。该团队迅速生成了大约17 000个人类基因的维基百科式词条，其中大部分在此前都没有详细的百科页面。

罗德里克斯并非唯一一个借助人工智能来协助科学总结的人。数十年来，学者们一直试图加快将研究成果汇编成综述的繁重工作。“它们太长了，整理时的工作量大得惊人，而且往往在撰写时已经过时。”英国伦敦国王学院从事研究综合学的伊恩 · 马歇尔（Iain Marshall）表示。不过，随着世界对大语言模型（这些生成式人工智能程序是ChatGPT等工具的基础）的兴趣激增，人们对综述任务自动化产生了新的兴趣。

某些更为新型的基于人工智能的科学搜索引擎已经可以通过查找、分类和总结出版物来帮助人们撰写陈述性文献综述（对各类研究的书面回顾）。不过，它们还不能自己生成高质量的综述。综述中最艰巨的挑战是被视为“黄金标准”的系统综述，它包含严格的论文搜索和评估程序，通常还需要进行荟萃分析来综合结果。大多数研究人员都认为，这些综述距离完全自动化还有很长的路要走。“我相信我们最终会实现这个目标，”位于澳大利亚黄金海岸市的邦德大学的证据和系统综述专家保罗 · 格拉西乌（Paul Glasziou）表示，“但我没法儿告诉你这要等到10年后还是100年后。”

然而，与此同时，研究人员也担心人工智能工具可能会催生出更草率、不准确或是误导性的综述，进而污染文献。伦敦大学学院研究证据综合的詹姆斯 · 托马斯（James Thomas）表示：“我们担心的是，几十年来有关如何进行有效证据综合的研究会遭到破坏。”

计算机辅助综述

几十年来，计算机软件一直在帮助研究人员搜索和解析研究文献。早在大语言模型出现之前，科学家就已经在使用机器学习和其他算法来帮助识别特定的研究或是快速地从论文中提取发现。但是，ChatGPT等系统的出现引发了人们对于将大语言模型与其他软件相结合来加速这一过程的狂热兴趣。

研究人员指出，直接要求ChatGPT（或任何其他人工智能聊天机器人）从零开始撰写一篇学术文献综述是过于天真的行为。这些大语言模型通过大量的文本训练来生成内容，但是大多数商业人工智能公司都不会透露这些模型的训练数据。马歇尔表示，如果要求像ChatGPT这样的大语言模型对某一主题的研究做综述，它们可能会采用可信的学术研究、不准确的博客文章以及天知道哪里来的其他信息。“它们无法权衡哪些是最相关、最高质量的文献。”马歇尔说。而且，由于大语言模型的工作原理是通过反复生成统计上“看起来可信的”的词语来响应提问，因此它们会对同一个问题产生不同的回答，还会出现“幻觉”式错误，包括声名狼藉的捏造式学术参考文献。马歇尔表示：“没有一种流程符合研究综述的最佳实践标准。”

一种更复杂的流程是将一组预选论文的语料库上传到大语言模型，并要求它仅基于这些文献提取见解。这种“检索增强生成”方法似乎可以减少幻觉现象，但无法完全避免。这一过程还可以设置为让大语言模型对其信息来源作引用标注。

这也是像“共识”（Consensus）和“引导”（Elicit）这样的专业人工智能科学搜索引擎的基础。“引导”总部位于美国加州奥克兰，能够搜索约1.25亿篇论文；位于马萨诸塞州波士顿的“共识”公司则能够搜索超过2亿篇论文。大多数公司并不透露其系统运行的具体细节，但通常会将用户的问题转化为计算机在“语义学者”（Semantic Scholar）和“公共医疗”（PubMed）等学术数据库的搜索，并返回相关度最高的结果。

然后，大语言模型会对每项研究进行总结，并将其综合为一个注明出处的答案；用户可以通过各种选项来筛选出他们希望包含的研究成果。新加坡管理大学数据服务部门负责人、人工智能工具主题博客作者亚伦 · 郑（Aaron Tay）说：“至少它们引用的内容是完全真实的。”

丹麦欧登塞南丹麦大学的博士后研究员穆什塔克 · 比拉尔（Mushtaq Bilal）表示，这些工具“肯定可以让你的阅读和写作过程变得更高效”。比拉尔为学者提供人工智能工具方面的培训，并设计了自己的人工智能工具“研究搭档”（Research Kick）。又例如，另一款名为“科学引用”（Scite）的人工智能系统可以快速生成支持或反驳某种主张的论文的详细分类。“引导”等其他系统还可以从论文的不同部分（方法、结论等）提取见解。比拉尔表示：“你可以将大量劳动外包出去。”

“引导”和其他数款人工智能工具一样，旨在通过总结论文和提取数据来辅助撰写学术文献综述

但是，比拉尔说，大多数人工智能科学搜索引擎都无法自动生成准确的文献综述。它们的输出结果更像是“一个本科生熬夜整理出的几篇论文的要点”。他说，研究人员最好将这些工具用于优化综述流程的某些部分。“引导”公司的工程主管詹姆斯 · 布雷迪（James Brady）表示，该公司的用户用该产品扩充综述的各步骤，“效果很好”。

包括“引导”在内的数款工具的另一个局限是，它们只能搜索开放获取的论文和摘要，而非文章的全文。比拉尔指出，很多研究文献都是付费的，而且搜索全文需要耗费大量的计算资源。“让人工智能应用程序搜索数百万篇文章的全文会耗费大量时间，成本也会高到无法承受。”他说。

全文搜索

钱对于罗德里克斯来说不是问题。他手头的资金非常充裕，因为位于加州旧金山的非营利公司“未来之家”得到了谷歌前首席执行官埃里克 · 施密特（Eric Schmidt）和其他投资者的支持。“未来之家”成立于2023年，旨在利用人工智能实现研究任务的自动化。

2024年9月，罗德里克斯和他的团队发布了未来之家的开源人工智能原型系统“论文问答2”（PaperQA2）。每当“论文问答2”收到一次查询，就会在多个学术数据库中搜索相关论文，并尝试访问开放存取和付费内容的全文。随后，系统会识别和总结相关度最高的要素。他提到，“论文问答2”的运行成本较高，部分原因在于它处理的是论文全文。

在测试该系统时，未来之家团队用它生成了关于多种单个人类基因的维基百科式文章。随后，他们将这些文章中的几百条由人工智能撰写的陈述语句，以及维基百科上针对同一主题的（人类撰写的）真实文章中的陈述语句，交给一个由博士和博士后生物学家组成的盲评小组。该小组发现，与人工智能工具生成的内容相比，真人撰写的文章中包含的“推理错误”——引用内容未能充分支持论点的情况——是前者的两倍。由于该工具在这方面的表现优于人类，研究小组将其论文命名为“语言智能体实现了科学知识的超人综合”。

亚伦 · 郑表示，与传统搜索引擎相比，“论文问答2”和另一款名为“潜思”（Undermind）的工具需要更长的时间（几分钟而不是几秒钟）才能返回结果，因为它们进行的是更复杂的搜索，例如利用初始搜索的结果来追踪其他引文和关键短语。他表示：“这一切意味着计算成本非常高，速度也非常慢，但搜索质量却大大提高了。”

美国初创公司未来之家团队推出了用于总结科学文献的人工智能系统。该公司的董事兼联合创始人萨姆·罗德里克斯坐在沙发右数第三位

系统综述的挑战

文献的叙述性综述已经够难写了，但系统综述更难写，后者可能需要花费数月甚至数年的时间才能完成。

根据格拉西乌团队的分析，完成一份系统综述至少涉及25个细致的步骤。在对文献进行梳理之后，研究人员必须对长名单进行筛选，找出相关性最高的论文，然后提取数据，筛查研究中可能存在的偏差，并对结果进行综合。（其中许多步骤还要由另一名研究人员重复执行，以检查是否存在不一致之处。）这种方法费力且耗时，但因其严格、透明和可重复性，在医学等领域被认为是值得一做的，因为临床医生会依据其结果来指导治疗病人的重要决策。

2019年，在ChatGPT问世之前，格拉西乌和他的同事们就已尝试创造一项科学领域的世界纪录：在两周内完成一份系统综述。当时，他和马歇尔、托马斯等人已经开发出了一些计算机工具，以减少所需要的时间。当时可用的软件包括“机器人搜索”（RobotSearch），这是一种经过训练的机器学习模型，可以从一系列研究中快速识别随机试验。另一款人工智能系统“机器评议员”（RobotReviewer）则可以帮助评估某项研究是否因未做充分盲法试验等因素而存在偏倚风险。“所有的这些都是减少系统综述写作时间的重要小工具。”格拉西乌表示。

这一挑战于2019年1月21日周一上午9:30开始计时，在总计9个工作日后，团队在2月1日周五的午餐时间完成了任务。“我可激动了。”当时在邦德大学主持这项研究、现任职于英国牛津大学的流行病学家安娜 · 梅 · 斯科特（Anna Mae Scott）说。众人用蛋糕庆祝了这项成就。此后，团队将这一纪录缩短到了5天。

这个过程是否还能更快？其他研究人员也一直在努力实现系统综述各个环节的自动化。2015年，格拉西乌成立了“系统综述自动化国际协作组织”，这个小众团体也很符合自身定位，产出了若干篇关于系统综述自动化工具的系统综述。但马歇尔表示，即便如此，“仍然没有多少（工具）被广泛接受。这取决于技术的成熟度”。

“引导”是声称其工具可帮助完成系统综述，而非仅仅是叙述性综述的公司之一。布雷迪表示，该公司的系统并不能一键生成系统综述，但确实实现了一些步骤的自动化，包括筛选论文以及提取数据和见解。布雷迪指出，大多数使用“引导”撰写系统综述的研究者都上传了他们使用其他搜索技术找到的相关论文。

系统综述爱好者担心人工智能工具可能无法满足研究的两个基本标准：透明性和可重复性。“如果我看不到它所使用的方法，那么它就不是一篇系统综述，只是一篇普通的综述文章。”贾斯汀 · 克拉克（Justin Clark）表示。他是格拉西乌团队的一员，负责开发综述自动化工具。布雷迪说，研究者上传到“引导”网站上的论文就是“出色、透明的”初始文献记录。“至于可重复性，我们不能保证在重复相同步骤时，结果始终完全一致，但我们致力于在合理的范围内实现这一点。”他补充说，透明性和可重复性会是公司改进系统时的关注重点。

综述领域的专家表示，希望看到更多关于人工智能文献综述辅助工具系统的准确性和可重复性的公开评估研究。“开发好用的工具和尝试新事物真的很有趣，”克拉克说，“但进行一项严谨的评估研究却是相当艰巨的任务。”

2024年早些时候，克拉克牵头，对使用生成式人工智能工具辅助做系统综述的研究做了一次系统综述。他和他的团队发现，只有15项已发表的研究对人工智能的表现与人类的表现做了充分的比较。那些尚未发表或尚未经过同行评审的结果表明，这些人工智能系统可以从上传的研究中提取部分数据，并评估临床试验的偏倚风险。“在阅读和评估论文方面，人工智能系统似乎没什么问题，”克拉克表示，“但在其他任务上都表现得非常糟糕，包括设计和执行全面的文献检索。”（现有的计算机软件已经可以通过荟萃分析完成数据综合的最后一步。）

格拉西乌和他的团队仍在努力通过改进工具来缩短综述产出所需的时间，这些工具可以在他们命名为“证据综述加速器”的网站上找到。“这不会成为一件前无古人后无来者的大事，而是每年都会让综述产出变得越来越快。”格拉西乌预测道。例如，在2022年，该团队发布了一款名为“方法向导”（Methods Wizard）的计算机化工具，该工具会向用户询问一系列有关其研究方法的问题，然后在不使用人工智能的情况下为他们编写一份研究方案。

匆忙赶制的综述？

信息综合的自动化也伴随着风险。多年来，研究人员一直清楚，许多系统综述存在冗余或质量差的问题，而人工智能可能会加剧这些问题。部分作者可能在有意或无意中使用人工智能工具快速完成一篇并未遵循严格程序或是包含低质量研究的综述，从而得出误导性的结果。

格拉西乌说，与此形成对比的是，人工智能也可以鼓励研究人员对以前发表的文献进行快速检查，而原本他们是不会有闲心这么做的。“人工智能可能会提高他们的研究水平。”他说。布雷迪则表示，在未来，人工智能工具可以通过识别诸如P值操纵（一种数据操纵形式）等蛛丝马迹，帮助标记和过滤掉低质量的论文。

格拉西乌认为这种情况是两种力量的平衡：人工智能工具可以帮助科学家产出高质量的综述，但也可能会助长劣质综述的产生。“我不知道这对已发表文献的总体影响会是如何。”

有些人认为，综合和理解全球知识的能力不应该完全掌握在不透明、以盈利为目的的公司手中。克拉克希望看到非营利组织开发并仔细测试人工智能工具。近期，英国的两家资助机构宣布将向证据综合系统投资7000多万美元，他和其他研究人员对此表示欢迎。“我们只是希望保持谨慎和小心，”克拉克说，“我们想要确保（技术）辅助提供给我们的答案是正确的。”

资料来源 Nature

————————

本文作者海伦·皮尔森（Helen Pearson）是《自然》杂志资深科学作者，从事科学写作、报道20余年。