《自然》(Nature)杂志的一项分析聚焦于21世纪发表的25篇最高被引论文,并探讨了其打破纪录的原因。

15.1

21世纪的前25年里诞生了多项重大科学突破,包括首款mRNA疫苗的问世、CRISPR基因编辑技术的开发、希格斯玻色子的发现以及引力波的首次测量。但若查阅自2000年以来发表的全球高被引论文,你根本找不到任何描述这些突破性成果的文章。

这是《自然》新闻团队分析了21世纪被引次数最多的25篇论文后得到的发现之一。这些高被引论文主要报道了人工智能(AI)、提升研究质量的方法和软件、癌症统计等方面的成果。一篇关于石墨烯实验的开创性论文(发表于2004年)位居最高被引行列,文章的作者们还因此获得2010年的诺贝尔物理学奖。

论文被引量是衡量论文影响力的指标之一,体现了研究者对前人文献的认可。但最高被引论文一般不等同于最著名的科学发现,它们往往是描述科研方法或软件的“基础工具”型研究。密歇根大学的社会学家米莎 · 特普利茨基(Misha Teplitskiy)说:“科学家声称重视方法、理论和实证发现这三个方面,但实际上方法类论文在引用量上更占优势。”

目前多家数据库都在追踪学术引用情况,但它们覆盖的文献范围不同,统计的引用量数据有差异。《自然》选了五个数据库进行分析,并取其中位数排名。这些数据库覆盖了21世纪发表的数千万篇论文。

分析结果(已于2025年4月发表)显示,21世纪至今被引量最高的论文为科技巨头微软的研究者于2016年发表的关于“深度残差学习”网络(简称ResNets)——这类人工神经网络可以说是深度学习及其引领的AI发展浪潮的基石——的研究。该研究介绍了一种可训练约150层网络的方法,比研究者惯常使用的网络层数多了约五倍。ResNets架构解决了信号穿过多层网络时会耗散的问题。该研究最初作为预印本发表于2015年底,当时微软团队还宣布他们凭借该方法赢得了一项图像识别比赛。

15.2

ResNets概念是后续AI领域取得突破的一大驱动力,助推了智能围棋程序AlphaGo、蛋白质结构预测工具AlphaFold乃至语言模型ChatGPT的出现。微软论文的作者之一何恺明(现就职于麻省理工学院)表示:“在ResNets之前,深度学习其实没那么‘深’。”

需要指出的是,微软的这篇论文并非在所有数据库里都是最高被引文章。谷歌学术这一搜索引擎显示它以25.4万次的引用量屈居第二。美国科睿唯安公司旗下的Web of Science数据库收录的期刊相对有限,它在其中凭借略高于10万次的引用量位列第三。在《自然》选择的五个数据库中,有两个把它排第一,两个把它排第二,另一个将其排第三,这使得它在最后的中位数排名中位居榜首。

微软的这篇论文不仅是21世纪的引用之最,根据《自然》的另一项分析,它甚至跻身有史以来被引量前十的经典文献行列。

当然,跨时空的引用量比较并不公平,也充满矛盾。例如,微软论文发表于十年前,相比于新近论文有更长的时间积累引用量;而且,其所属的计算机科学领域本身也具备高产出的特性。《自然》曾委托文献计量学家进行了一项控制变量的分析,但或许是由于只关注了被引量极高的那批论文,最终登顶的仍是同类文献,除此之外,仅有少数关于新冠疫情的高被引新论文得以上榜。在此,《自然》探讨了一些成为21世纪学术引用传奇的代表性论文。

AI研究跃升头部

“神经网络之父”杰弗里 · 辛顿(Geoffrey Hinton)指出,AI论文在关于被引量的竞争中具有天然优势。该领域的论文关联众多学科,而且自进入21世纪以来,AI发展极为迅猛,论文数量庞大。辛顿此前凭借对AI领域的卓越贡献与他人分享了2024年诺贝尔物理学奖。

许多人将深度学习革命归功于辛顿2012年与人合著的一篇论文。该论文提出的一个网络模型(后被命名为AlexNet )在图像目标识别与标注的竞赛中以显著优势击败其他方法。辛顿的这篇论文位列21世纪高被引论文排行榜的第八位,另一篇由辛顿与合作者撰写的深度学习综述文章则排在第十六位。

在那篇介绍AlexNet的论文发表三年后,另一篇富有影响力的论文报告了对AlexNet架构的改进方式,由此也推出了所需训练数据更少的U-Net图像处理技术。该论文目前排在第十二位,作者之一奥拉夫 · 罗内伯格(Olaf Ronneberger)表示,最终接收该论文的会议当时差点以创新性不足为由拒稿。“如今,它仍是图像生成领域大多数扩散模型的主要架构。”

紧跟着罗内伯格的研究,前文介绍的微软2016年论文问世了。2017年,谷歌团队发表了一篇里程碑式论文——《注意力就是你所需要的一切》——提出了Transformer神经网络架构。该架构通过高效实现“自注意力”机制(使网络在学习模式时能优先处理相关信息),为ChatGPT等工具所依赖的大语言模型的发展奠定了基础。这篇论文位于21世纪高被引论文排行榜的第七位。

有研究者指出,机器学习领域的早期学术成果多具有开源特性,这显著提升了文章的被引频次。排在第六的《随机森林》提出了一种改良版的机器学习算法。该方法是由美国统计学家阿黛尔 · 卡特勒(Adele Cutler)与利奥 · 布雷曼(Leo Breiman,已故)合力拓展的。前者表示他们的论文之所以广受欢迎,是因为该方法开源、免费且易用,属于那种拿来即可套用、基本无需调整的方法。

很多AI论文在正式接受同行评审前就以预印本形式发布了,这让引用统计工作变得复杂。多数商业数据库要么不追踪预印本,要么选择分开统计预印本与经过同行评审的正式论文的引用量,因此文章的引用情况往往会被低估。荷兰莱顿大学科学计量学名誉教授保罗 · 沃特斯(Paul Wouters)指出,随着预印本引用愈发普遍,数据库可能要采用新的统计规范。

加拿大非营利学术服务机构OurResearch此前开发出OpenAlex数据库(本文数据来源之一),并尝试用它来合并预印本和正式论文的相关数据,从而整合引用量。谷歌学术的联合创始人阿努拉格 · 阿查里雅(Anurag Acharya)称,谷歌学术试图聚合论文的所有版本及其引用数据。

科研工具研究功成名就

大约25年前,药物科学家托马斯 · 施密特根(Thomas Schmittgen)提交了一篇采用定量聚合酶链反应(简称定量PCR)技术测定样本DNA含量从而获得数据的论文。当时,他引用一本技术手册里的公式来分析数据,却遭到审稿人的反对:“你不能在论文中引用用户手册。”于是,施密特根联系了公式的创建者,两人合作发表了可被引用的正式论文。

它也确实被引用了:据Web of Science统计,这篇论文至今已被引用超16.2万次,不仅是21世纪高被引论文排行榜的第二位,也跻身历史被引量前十之列。它的“走红”源于它为生物学家提供了一套简易公式,用以计算在不同条件下,比如给药前后,基因活性有何变化。与之相对的,位列21世纪高被引榜单第十八位的DESeq2软件论文则通过RNA测序数据实现类似目标。

21世纪高被引榜单中排第五的论文出自2025年2月故去的英国化学家乔治 · 谢尔德里克(George Sheldrick)之手。他开发的SHELX计算机程序套件能通过分析X射线穿过分子晶体后的散射图案,揭示分子的原子结构。这项研究工作始于20世纪70年代。“当时我的本职工作是教化学,写代码只是业余爱好。”谢尔德里克十年前接受《自然》采访时这样说道。2008年,他撰写了一篇综述论文,并表示任何使用SHELX程序的研究都应该引用该文。

癌症与健康研究广受关注

有三篇高被引论文是癌症研究论文引言部分的常客。其中位列榜单第九和第十的两篇是基于世界卫生组织GLOBOCAN项目(每一到两年更新一次全球癌症数据)发布的2018年和2020年全球癌症统计报告。报告的第一作者、国际癌症研究机构的流行病学家弗雷迪 · 布雷(Freddie Bray)表示:“无论是研究者、倡导者还是政策制定者,只要有引用特定癌症类型的发病率或死亡率的需求,都会用到GLOBOCAN的数据。”

另外一篇排第十九的论文是一篇综述,旨在将癌症的复杂性提炼归纳为肿瘤中常见的少数特征。文章提出的“癌症标志”理论对该领域产生了深远影响。作者之一、路德维希癌症研究所的研究员道格拉斯 · 哈纳汉(Douglas Hanahan)表示:“常有学生告诉我,他们是因为这篇综述才投身癌症研究的。”

榜单排名第四的《精神障碍诊断与统计手册(第五版)》出版于2013年,与前一版的问世相隔近20年。该书详细规定了成瘾、抑郁等精神障碍的分类与诊断标准,被全球研究者和临床工作者广泛使用。它是此次榜单中唯一的书籍。

研究质量逐渐提升

关于性别与性取向的论文在引用方面总是不受待见,心理学家弗吉尼亚 · 布劳恩(Virginia Braun)和维多利亚 · 克拉克(Victoria Clarke)对此习以为常。因此,当她们2006年合作发表的论文成为21世纪被引量排名第三的研究后,克拉克惊讶感慨:“它有了自己的天地!”

布劳恩与克拉克于2005年写了这篇论文。在那之前,她们一直尝试向学生传授“主题分析法”——一种定性研究方法,旨在识别数据中的模式,揭示其深层意义。两位专家发现,关于主题分析法的定义和描述都存在问题,有时作者们会宣称“主题浮现”——仿佛相当神秘——于他们的研究中,给人的感觉是怎么着都行。为此,二人才撰写了一篇面向学生的通俗论文,不仅阐明主题分析法的要义,还附上了规范操作清单。

论文发表后,越来越多的研究者开始用布劳恩与克拉克版本的主题分析法作为研究方法,进而推动了该论文引用量暴涨,这也彻底改变了二人的人生轨迹。克拉克表示,如今她俩将主要精力都用在主题分析法研究上,并经常获邀赴全球各地参会。

还有一篇2003年发表的高被引论文介绍了心理学、管理学等领域复杂行为研究中的方法论偏差。论文第一作者菲利普 · 波德萨科夫(Philip Podsakoff)指出,研究者们开始在方法部分引用他的论文,以表明处理好了此类偏差。他表示:“越来越多的人意识到,开展真正高水平的调查研究是困难的,我对此感到欣慰。”

系统综述突飞猛进

21世纪高被引论文榜单反映了一个重要趋势,那就是系统综述与元分析的兴起。在系统综述中,研究者会整合所有能回答特定问题的研究成果。他们通常还会纳入元分析——这是一种用于合并数值结果的统计技术。

渥太华医院研究所的临床流行病学家大卫 · 摩尔(David Moher)和其他科学家曾见过许多“报告质量低劣”的系统综述,它们往往缺失关键细节,如受试者的具体特征或用药剂量。2009年,摩尔团队在多本期刊同步发表《系统综述与元分析的优先报告条目:PRISMA声明》,给出了27项必须包含的报告条目,用于规范系统综述与元分析研究的撰写。

PRISMA声明发表后,很快成为广大学者的必备检查清单。在系统综述数量持续激增的大背景下,这篇被引量排名在第十一位的文章已成为大家用来表明自己方法严谨、报告规范的标配。系统综述也被许多领域的学者广泛用于梳理不断“膨胀”的研究文献。

由于PRISMA声明于多本期刊发表,其总被引量难以精确统计。Web of Science数据库显示,《英国医学杂志》(The BMJ)和《公共科学图书馆-医学》(PLoS Medicine)刊载的版本贡献了最多的被引量,大概在5.3万~8万次,但若整合所有版本的被引量,PRISMA声明可能凭借约13.8万次的引用量冲击榜首。

截至2020年,已有近200家期刊和机构推荐使用PRISMA标准。摩尔团队同年发布的更新版声明也迅速登上高被引榜单的第二十三位。

研究表明,PRISMA的使用确实提升了系统综述的报告质量。但摩尔坦言,部分作者会钻空子,只引用这个检查清单,却不落实其建议。

另一项研究成果则乘着元分析大力发展的东风扶摇直上,成功跻身高被引论文之列。大概是在2000年,统计学家朱利安 · 希金斯(Julian Higgins,当时就职于剑桥大学生物统计中心)团队开发了I2统计量,用于衡量元分析中各项研究结果的一致性,例如减肥药在不同人群中是否具有相同效果。关于这一统计量的研究论文后来被高度引用,部分原因就在于它被纳入了此类研究的权威指南《Cochrane干预措施系统综述手册》。不过希金斯指出,许多引用者其实错误地解读了I2。“被引用是好事,但当引用者误解你的意图时,就很尴尬。”

统计分析软件研究受人追捧

最后一类高被引论文与统计分析或编程软件有关。例如,排在第十五位的论文介绍了scikit-learn——一个基于Python编程语言的免费开源机器学习库。该论文的被引量超过5万次(谷歌学术显示约10万次)。而2015年发表的一篇关于lme4软件包的论文排名还略高些。该软件包能在R语言中结合特定统计模型分析数据。另一篇高被引论文介绍了G*Power这款免费程序,为生物学家提供了便捷工具,用于计算获得具有统计学意义的结果所需达到的实验规模。

有趣的是,科学家最常使用的R语言编程软件本身并未上榜。尽管OpenAlex数据库显示,一项它所认定的描述R语言的“研究工作”获得了超过30万次的引用,但其他数据库均未将其收录在内。这大概是因为R开发者(他们从未就此写过权威研究论文)建议用户引用软件官网,而OpenAlex将这些引用错误地归类于论文。

德国马克斯-普朗克固体研究所的科学计量学家罗宾 · 豪恩希尔德(Robin Haunschild)参与指导了《自然》杂志的这项分析。他表示:“这个例子表明引用文化和引用记录是多么反复无常。对此,首要经验就是,如果你编写了一个有影响力的程序,那就为此写篇论文。”

资料来源 Nature