尽管生成式人工智能(Gen AI)在各学科领域中的快速应用引发了广泛关注与争议,但相关的实证证据仍然较为零散,人们对大语言模型在不同科学领域所产生影响的系统性认识尚显不足。我们分析了来自三个主要预印本平台的大规模数据,结果表明,大语言模型的使用加快了论文产出的速度,降低了非英语母语研究人员的参与门槛,并促进了既有文献发现路径的多样化。然而,随着科研工作量与日俱增,诸如语言复杂性等传统的科学质量衡量指标正逐渐成为不可靠的学术价值评判依据。AI系统的进步将挑战我们关于研究质量、学术交流与智力劳动的固有认知。科学政策制定者必须思考如何更好推动科学体制的演进,以适应快速变化的科学生产模式。

科学事业与技术创新紧密相连。例如,显微镜的发明、计算技术的进步以及新一代测序技术的问世都曾不断拓展科研的前沿疆域。研究人员已经在多个具体科学情境中展示了AI的价值,如蛋白质结构预测和材料发现。大语言模型的新进展使得其在自然科学与社会科学领域获得广泛应用。本研究凸显了大语言模型在特定科学事业中的巨大潜力,也引出一个亟待探索的问题:大语言模型对科学事业的宏观影响究竟是什么?

为探讨这一问题,我们收集并分析了三大预印本平台2018年1月至2024年6月的大规模数据:其一是arXiv平台(约120万篇预印本),涵盖数学、物理学、计算机科学、电气工程、定量生物学、统计学和经济学等领域;其二是bioRxiv平台(约22.1万篇预印本),覆盖生物学和生命科学中的多个子领域;其三是社会科学研究网络平台(SSRN,约67.6万篇预印本),收录社会科学、法学和人文学科领域的研究成果。

这三个数据集分别代表各自领域内规模最大的公开文献库。通过整合分析,我们得以以前所未有的实证基础,系统考察大语言模型对多学科科研产出实践的多重影响。

为识别科学论文撰写过程中大语言模型的使用情况,我们应用基于文本的AI检测算法对所有摘要数据进行分析。通过提取2023年前(即ChatGPT时代之前)投稿论文的摘要,我们评估了人类撰写文本的词元(单词)分布特征。随后,我们使用OpenAI的GPT-3.5turbo0125模型来改写这些摘要,生成大语言模型撰写文本的词元分布,并对两者进行比较。这使我们能够量化大语言模型辅助写作与人工写作在词元分布上的差异,并识别ChatGPT发布后可能由大语言模型辅助撰写的摘要。

大语言模型对科研生产力的影响

我们预测,采用大语言模型的作者将体验到生产力的显著提升。为将大语言模型对生产力的普遍影响与AI领域研究的快速增长区分开来,我们首先从样本中剔除了核心AI子学科的文献。随后,我们将作者首次采用大语言模型的行为,界定为出现首篇展现出大语言模型辅助统计特征(α)的文献(mi),即满足α(mi>τ,其中τ为检测阈值。在首次检测到使用行为之后的所有月份,作者的采用状态从0变为1。根据这个衡量标准,我们考察了在采用大语言模型前后,采用者与未采用者之间论文投稿率的变化。

研究表明,在三个预印本平台上,大语言模型的使用均与研究人员科研产出的显著增长相关。arXiv、bioRxiv和SSRN的估计系数分别为36.2%、52.9%和59.8%,这表明大语言模型的使用能带来科研生产力的大幅提升。尽管估计系数会因检测方法和阈值而异,但敏感性分析表明,在不同的分析方法下,这种正向关联均具有稳健性。

生产力的跃升可能源于Gen AI在多个研究任务中的应用,包括观点生成、文献检索、代码编写、数据收集或分析等。但迄今为止,大语言模型对写作层面的影响可能最为显著。为创作出具有独特性的科学作品,研究人员必须提出有说服力的书面论点;将稿件的论点、方法与结果同既有文献相联系;细致阐明核心发现,并论证其学术价值,同时明晰文本可提供的研究启示。这些复杂的写作任务耗时费力,对于使用非母语进行学术交流的研究人员来说尤为艰巨。因此我们提出疑问:采用大语言模型对科研生产力的提升效果,是否会因研究人员的母语背景差异而产生差异呢?由于大多数高影响力研究均在英文期刊和会议论文集上发表,母语为英语的研究人员在学术交流中占据显著优势。大语言模型能够有效弥合写作者的英语流畅度差异,从而不同程度地降低不同语言背景科学家的写作成本。

为检验科研生产力变化中的异质性特征,我们基于作者姓名及其所属机构推测其母语为英语的可能性。我们将模型系数按研究人员的族裔背景与地域分布进行细分分析。结果显示,虽然所有群体均呈现统计学显著效应,但姓名具有亚洲特征的学者在采用大语言模型后获得了最显著的生产力提升。在bioRxiv与SSRN平台中,姓名具有亚洲特征且其所属机构位于亚洲的学者群体表现出更突出的增益效应。

2.1

我们的研究结论是,即便是使用上一代大语言模型(即本研究所涉论文撰写时期学者可用的版本),也可提高科研生产力,尤其是对于面临较高写作成本的研究人员而言。这些发现与相关研究结果一致:大语言模型通过降低非母语写作成本,缓解了技能差异带来的影响。随着当前大语言模型的写作能力大幅提升,且这类系统日益普及,其带来的生产力提升,很可能足以推动全球科研产出的市场份额向英语非母语地区的学者转移。

大语言模型对科学写作及论文发表结果的影响

大语言模型对科研生产力的影响可能只是其重塑科学生态的开端。高质量的写作通常被视为科学价值的体现:语言清晰但复杂的论文往往更具说服力,被引用的频率也更高。科学进步源于长期的知识积淀,因此,科研团队能否精确阐述其发现,虽非绝对标准,但确实能从一个侧面反映其在工作中投入的精力和严谨程度。大语言模型展现出一种强大能力:它能针对任何科学主题,轻松生成精炼且高度专业化的文本。这一事实引发出一个重要问题:使用大语言模型究竟会揭示还是掩盖实际研究的真实质量?

为探讨这一问题,我们研究了写作复杂度与研究质量的关系,进而考察了大语言模型的使用是否会改变写作复杂度在科学交流中的信号价值。我们采用弗莱施易读性分数的加法逆元作为写作复杂度的衡量指标。该指标通过对平均句长与单词音节数的综合计算来量化文本复杂度,得分越高表明文本越复杂。我们以2023年及之后的所有预印本为样本,以其在观察截止期(2024年6月)前是否正式发表于同行评审期刊或会议,作为衡量研究质量的二元结果指标。

通过分析弗莱施分数加法逆元与论文发表结果之间的关联,我们观察到三种显著模式。首先,在三个文献库中,大语言模型辅助撰写的论文,其写作复杂度分数均显著高于人工撰写的论文。这凸显了大语言模型生成复杂科学文本的强大能力。其次,三个文献库中非大语言模型辅助撰写的论文均显示:写作复杂度与稿件质量呈正相关。最后,我们得出以下重要发现:大语言模型辅助撰写的论文的写作复杂度与同行评审结果之间出现了关系逆转的情形。对于这类文本,写作复杂度的提升反而与同行对其科学价值的更低评价相关。

为验证这些发现的稳健性,我们考察了文本的其他特征。我们使用词汇复杂度(每个单词的音节数)和形态复杂度(现在分词从句占比)分析复现了研究结果。两者均显示出相同的逆转模式:在大语言模型辅助撰写的论文中,写作复杂度与发表成功率呈负相关,而在人工撰写的论文中则呈正相关。我们使用标准词库测量宣传性语言的使用频率时也发现了相同模式,这进一步证实大语言模型的应用正在多个语言维度上削弱传统质量信号的效力。

预印本的发表结果受多重因素影响。我们无法排除一切干扰因素,但在控制预印本提交月份和研究领域因素后,研究结论依然保持稳健。为进行稳健性检验,我们收集并分析了来自2024年国际学习表征会议(ICLR-2024,机器学习领域的顶尖会议之一)的独立数据集。ICLR-2024提供了全部7243篇投稿的28 000份评审意见,无论最终是否被录用。当采用同行评审分数作为衡量科学价值的替代指标时,我们的关键研究结果再次得到了高度一致的复现。

在人类撰写与大语言模型辅助撰写这两类稿件中,语言复杂度分布范围内的质量评估结果存在显著差异,这证实了大语言模型生成的复杂语言常会掩盖稿件薄弱的科学贡献。这些发现表明,传统的经验法则正在快速失效。在大语言模型辅助撰写的稿件中,语言复杂度与科学价值之间的正相关性不仅消失了,而且发生了逆转。当生成精炼文本所需投入的精力因技术而降低时,其作为反映作者对课题掌握程度的信号价值也随之减弱了。这将对科学事业构成风险:大量表面看起来令人信服但科学价值不足的研究可能充斥于文献库中。倘若这种情况发生,学术界将不得不浪费宝贵时间,从一堆无关紧要且可能具有误导性的成果中筛选和甄别出真正有洞见、有价值的研究。

大语言模型对发现既有文献的影响

撰写科学论文需要将论点与发现嵌入现有文献体系中。大语言模型具备吸纳与整合海量信息的能力,它们可以拓宽研究人员对既往研究的接触范围。然而,亦如某些推测所言,训练数据可能过度呈现高影响力成果,导致大语言模型加剧对易获取研究的重复曝光。因此,我们探究了大语言模型会如何影响对先前文献的发现。

为验证这些竞争性假设,我们利用一个记录了arXiv平台2.46亿次浏览与下载数据的数据集,其中每条记录均包含用户ID、arXiv文档ID及引荐来源(必应、谷歌等)。该数据集使我们能够探究2023年2月“必应聊天”(由GPT-4驱动)——首个被广泛采用的、集成大语言模型的搜索引擎——推出后用户阅读行为的变化。我们对比了这一外生变量出现前后必应用户所访问的arXiv文档。基于双重差分法的估计结果表明:相较于经谷歌跳转访问arXiv文档的用户,必应用户在引入必应聊天后发现了更多样化的arXiv文档。通过对比出版物类型,我们发现必应用户对书籍的访问率高出了26.3%,这很可能反映出大语言模型从长篇文本中挖掘并呈现内容的能力。

书籍访问率的增长也表明,大语言模型辅助的科研可能利用了更多的参考文献资源,但这并不能排除大语言模型仅仅是强化了对经典科学文献的关注。我们研究了这种可能性,发现通过必应引荐的访问也与更多近期的学术成果相关联;被访问稿件的“年龄”中位数估计降低了0.18年。与这种转向新近研究成果的趋势相一致的是,大语言模型用户并未增加对高被引文献的访问频次。相反,我们发现必应用户更多地发掘出现有引用量较少的参考文献。

为检验搜索结果中的这种转变是否真正改变了作者的引用行为,我们将arXiv、bioRxiv和SSRN的预印本与两个大规模引文数据库——OpenAlex和语义学者(Semantic Scholar)——进行关联,共获得了1.016亿条对既有文献的引用记录。随后,我们采用事件研究法,以未使用者为对照组,比较了作者在采用大语言模型前后的引用行为变化。研究发现,大语言模型的使用确实会改变作者的引用行为——似乎引导他们转向了一个更加多元化的知识库。总体而言,大语言模型使用者引用书籍的可能性高出11.9%,但该效应在SSRN这一文献库中未呈现统计学显著性。此外,使用者所引用文献的平均年龄减少了0.379年,且累计被引次数更少(引用影响力降低2.34%)。尽管这些效应的强度因预印本平台不同而有差异,但总体模式基本一致。

我们提供的证据一致表明:AI辅助将学者引向了更广阔的知识体系。研究人员面临时间与注意力上的限制,难以应对日益扩大的研究领域。大语言模型似乎有助于研究人员克服发现相关文献时遇到的障碍。

这些发现表明,尽管大语言模型可能模糊了作者努力的信号,但它们拓宽了发现知识的途径。一个普遍的担忧是,AI辅助的搜索可能会强化现有的科学经典体系。然而,我们发现大语言模型的使用产生了相反的效果:无论是AI辅助的搜索行为,还是作者的引用模式,都显示出明显转向更加多元化的知识库的趋势,该知识库包含了更多的书籍以及更新近发表、被引用较少的学术成果。这种关注范围的拓宽表明,大语言模型帮助研究人员克服了认知局限,使其能够更充分地探索不断扩展的科学文献领域。

研究局限、启示与未来方向

本研究探讨了大语言模型对科研产出的影响,但研究结果仍存在若干局限性,这些局限性为未来研究提供了方向。

其一,将这些估计效应解释为因果关系需要满足一些在现实场景中难以完全实现的假设条件,因为“在真实场景中”研究大语言模型存在固有的数据局限。我们的AI检测方法并不完美,且易受到若干挑战的影响:该方法依赖摘要而非全文进行分析,无法明确识别团队中具体是哪位合著者使用了大语言模型,且几乎必然漏检那些对大语言模型生成文本进行深度编辑的使用行为。此外,Gen AI工具的非随机采用可能导致自选择偏倚,而我们仅关注已发布的预印本意味着工具的“采用时机”可能与生产力之间还存在内生性问题。我们提供了多项附加分析以评估这些问题的严重程度,尽管结果看似表现出稳健性,但未来研究仍需持续探索应对这些挑战的方法论策略。

其二,我们的研究结果仅是这项快速演进的技术的阶段性呈现。我们的分析是基于更先进的推理模型与深度研究功能出现之前产生的数据。随着模型的改进以及科学家找到将其整合到科研工作中的新方式,这些技术未来的影响可能会远超我们在此强调的效应。这为未来研究指出了一个关键方向:需要持续追踪科学界如何与不断迭代的AI模型保持同步。研究应进一步考察,当这些更强大的工具融入科研工作流程后,我们所记录的效应是会增强、发生转变,还是会出现逆转。

未来研究仍存在许多可探索的方向,如更细致地探索大语言模型对科研实践的影响。长期以来,科学的进步一直受限于非正式资源与知识的获取。一种假设认为,大语言模型正成为一种可扩展的替代方案,用以弥补在非正式知识获取方面的不足:从实验设计到领域内隐性知识的掌握,它们都能提供指导,从而提升科研环境的公平性。另一个值得探索的方向是大语言模型突破学科边界的潜力。各学科在长期发展中业已形成深厚的知识体系,而这些知识往往通过学科特定的术语进行传播,容易导致非专业人士理解受限。借助大语言模型帮助领域外的研究人员跨越这一障碍,有望推动孤立的学科之间开展更富有成效的合作。

我们的研究结果表明,大语言模型已开始重塑科学生产模式。这些变化预示着一个不断演变的研究格局:英语流利度的信号价值将逐渐减弱,而健全的质量评估框架和深入的方法论审查则变得至关重要。对同行评审人、期刊编辑以及创造、吸收和应用这些科研成果的科学共同体来说,这是一个重大议题。随着科学交流数量激增,“写作特征”这一本就不完善的科研成果筛选指标,其信息价值正在迅速贬值。随着传统经验法则的失效,编辑和评审人可能转而更多依赖作者资历、机构背景等身份标签来评判研究成果的质量。这可能反而会抵消大语言模型对科研产出的民主化影响。一种潜在的应对方法是利用同源技术辅助评审稿件。专业的“评审智能体”不仅能标记方法论的不一致之处、验证研究主张,更能对其创新性进行评估。然而,这种可扩展的方法究竟会帮助编辑与评审人聚焦实质内容而非表面信号,还是会给科研进程引入未知挑战,仍是一个关键的不确定性所在。

资料来源 Science

___________________

本文作者包括:久寿米木启悟Kusumegi Keigo),康奈尔大学信息科学系博士生,专注于网络科学、科学学和计算社会科学研究;马蒂斯·德·瓦安Mathijs De Vaan),加州大学伯克利分校哈斯商学院副教授,专注于医疗保健领域的社交网络研究;托比·斯图尔特Toby Stuart),加州大学伯克利分校哈斯商学院教授,专注于创新与创业、企业战略和社交网络研究;等等