在争议不断的浪潮中,一种接管科研流程的工具成了新一波浪头。

当一个国际研究团队着手创建一位“人工智能科学家”来处理整个科研流程时,他们并不确定自己最终能走多远。他们创造的系统真的能够生成有趣的假设、进行实验、评估结果并撰写论文吗?

研究员陆聪(Cong Lu,音译)表示,他们最终得到的成果是一个据他们判断相当于低年级博士生的人工智能工具。他说,该系统有“一些创造力惊人的点子”,但这些好点子的数量远远少于坏点子。它很难流畅连贯地将自己的结果撰写成论文,有时还会误解自己的实验结果,陆聪说:“它和一个盲目猜测某种现象为何成立的博士生水平差不太多。”而且,也许就像那些还没搞懂学术伦理的低年级博士生一样,尽管研究人员竭力让它保持诚实,它有时还是会在论文中胡编乱造。

陆聪是加拿大不列颠哥伦比亚大学的博士后研究员,他与其他数位学者以及来自东京热门初创公司“鱼群”(Sakana AI)的研究人员共同参与了这一项目。该团队最近在预印本平台ArXiv上发布了他们的成果。尽管这篇论文预印本中包含了对成果局限性和伦理问题的探讨,但文中也使用了一些极尽夸张的语言,称这个人工智能科学家是“科学发现的新时代之开端”,并且是“第一个全自动实现科学发现的综合框架,能够让前沿的大型语言模型(LLMs)独立进行研究并传达其发现”。

人工智能科学家似乎捕捉到了时代精神。它正乘着将人工智能应用于科学的热潮乘风破浪,但一些批评者认为,这股浪潮最终不会在科学领域留下任何有价值的东西。

“将人工智能应用于科学”的热潮

这项研究是“将人工智能应用于科学”这一更广泛趋势的参与者之一。可以说,这股热潮是由谷歌DeepMind在2020年引发的——当时它推出了AlphaFold,这一人工智能系统以前所未有的精确度预测了蛋白质的三维结构,令生物学家们大为惊叹。自从生成式人工智能问世以来,越来越多的大型企业纷纷参与其中。索尼人工智能公司的高级研究员塔雷克 · 贝索德(Tarek Besold)负责主持该公司的人工智能促进科学发现项目,他表示,将人工智能应用于科学是“人工智能社区可以为之团结的目标,不仅是为了推进底层技术的发展,更重要的是,为了帮助人类应对我们这个时代最紧迫的一些问题”。

然而,这股浪潮也面临批评。2023年,DeepMind发表了一篇论文,声称发现了220万个新的晶体结构(“相当于近800年的知识量”),但不久后,两位材料科学家随机抽取了部分结构进行分析,发现“几乎没有证据表明其中的化合物能同时满足新颖性、可信性和实用性三要素”。换句话说,人工智能虽然能快速生成大量结果,但这些结果未必真正有用。

人工智能科学家的工作原理

在人工智能科学家项目中,陆聪和合作者们仅在计算机科学领域测试了他们的系统。他们要求它研究与大语言模型和扩散模型相关的课题。大语言模型为聊天机器人(如ChatGPT)和人工智能科学家自身提供了驱动力,扩散模型则是DALL-E等图像生成器的重要动力源。

人工智能科学家运作的第一步是生成假设。基于它所研究模型的代码,它会自由生成一系列旨在提高模型性能的实验想法,并根据趣味性、新颖度和可行性对每个想法进行评分。它可以在这一步进行迭代,生成最高分想法的不同变体。随后,它会在学术搜索引擎“语义学者”(Semantic Scholar)上检查其提议是否与既有研究过于相似。接着,它会用一款名为“援手”(Aider)的编程助手来运行代码,并以实验日志的形式记录结果。它可以基于这些结果生成后续实验的点子。

下一步是让人工智能科学家根据会议指南模板将研究结果写成论文。然而,陆聪表示,该系统很难写出一篇条理清晰、九页长的论文来解释其结果。“撰写阶段可能和实验阶段一样难以搞定。”他说。因此,研究人员将这一过程分解为多个步骤:人工智能科学家每次只写一个章节,并将每个章节与其他章节进行核对,以剔除重复和相互矛盾的信息。此外,它还会再次使用“语义学者”来查找引用文献并生成参考书目。

7

人工智能科学家是一款由大语言模型驱动的端到端科学发现工具

然而,还有所谓的“幻觉”问题——这个术语指的是人工智能会编造信息。陆聪表示,尽管他们指示人工智能科学家只使用实验日志中的数据,“但它有时仍然不听话”。陆聪说,模型不听话的时间不到10%,但“我们认为10%大概仍是不可接受的”。他说,他们正在研究解决方案,例如指示系统将论文中的每个数字链接到它在实验日志中的出现位置。不过,系统还会犯一些不太明显的推理和理解错误,这些问题似乎更难解决。

此外,让人意想不到的是,人工智能科学家甚至包含了一个同行评审模块,用于评估它所生成的论文。陆聪说:“我们早就知道我们想要某种自动化的评估功能,这样我们就不必花费数小时审阅所有稿件。虽然总有人担心这像是我们自己给自己的作业打分,但评审员模型是基于顶级人工智能会议神经信息处理系统大会(NeurIPS)的审稿指南确立的,结果发现,它在总体上比人类评审员更为严苛。理论上,同行评审功能可以用来指导下一轮实验。”

对人工智能科学家的批评

尽管研究人员将他们的人工智能科学家局限于机器学习实验,但陆聪表示,团队与其他领域的科学家进行了几次有趣的对话。他说,理论上,人工智能科学家能在任何可以通过模拟运行实验的领域提供帮助。“一些生物学家表示,他们有很多工作可以通过计算机模拟完成。”他还提到,量子计算和材料科学也是人工智能科学家可能参与的研究领域。

但对于人工智能促进科学运动的一些批评者可能会对这种广泛的乐观态度提出异议。2024年早些时候,美国加州大学伯克利分校的计算生物学教授詹妮弗 · 利斯特加藤(Jennifer Listgarten)在《自然-生物技术》(Nature Biotechnology)期刊上发表了一篇文章,认为人工智能不太可能在多个科学领域带来突破。她写道,与自然语言处理和计算机视觉等人工智能领域不同,大多数科学领域都不具备训练模型所需的大量公开数据。

另外两位研究科学实践的学者,美国耶鲁大学的人类学家丽莎 · 梅塞里(Lisa Messeri)和普林斯顿大学的心理学家莫莉 · 克罗克特(M. J. Crockett)于2024年在《自然》期刊上发表了一篇论文,试图揭穿围绕“将人工智能应用于科学”这一话题的炒作。当被问及对这位人工智能科学家的看法时,两人重申了她们对于将“人工智能产品视为自主研究人员”的担忧。她们认为,这样做可能会将研究范围局限成适合人工智能处理的问题,使我们失去推动真正创新的多元化视角。她们表示:“尽管‘人工智能科学家’所承诺的生产力对某些人来说很有吸引力,但创造论文和创造知识可不是一回事,忘记这一点可能会让我们产出得更多,但理解得更少。

但另一些人认为人工智能科学家是朝着正确方向迈出的一步。索尼人工智能公司的贝索德表示,他认为这是一个很好的实例,说明当今的人工智能在应用于正确的领域和任务时,可以为科学研究提供支持。“这可能会成为帮助人们构想人工智能在科学发现领域的应用前景的少数几个早期原型之一。”

人工智能科学家的下一步发展

陆聪表示,团队计划继续开发人工智能科学家,在提升其性能的过程中会有很多容易实现的阶段性成果。至于这些人工智能工具最终是否会在科学流程中发挥重要作用,他表示:“时间会证明这些模型的真正价值。” 在研究项目的早期阶段,当研究人员试图勾勒多个可能的研究方向时,这类工具或许会大有帮助——尽管批评者指出,我们需要等待未来的研究,看这些工具是否真的足够全面、公正,从而真正提供帮助。

陆聪还说,如果这些模型能被改进到相当于“一名优秀的三年级博士生”的水准,那么对于任何试图钻研某个科研创意的人来说,这些模型都能成为强大的助力。“到那时,任何人都可以成为教授,实施自己的研究计划,”陆聪说,“这是十分激动人心的前景,我很期待。”

资料来源 IEEE

————————

本文作者艾丽莎·斯特里克兰Eliza Strickland)是《IEEE综览》的高级编辑,主要负责人工智能与生物医学工程方面的报道