科学发现能否实现自动化？

发布时间：17年09月19日

编译许林玉

科学进步的速度只能与人类思考的速度保持同步，而将这一工作外包给人工智能也许能改变这一状况。

　　科学正在遭遇一场数据危机。去年，仅生物医学领域就发表了120多万篇新论文，使经同行评议的生物医学论文总数超过2 600万篇。然而，一名普通的科学家一年阅读的论文只有250篇左右。与此同时，科学文献的质量一直呈下降趋势。最近的一些研究表明，大多数生物医学论文无法复制。

　　科学论文面临的数量太多而质量欠佳的双重挑战根源于人类心智的有限神经容量。科学家们在我们集体知识的越来越小的部分上形成假说，因此，他们所探究的很多问题本身就是错误的，或者已经有了答案。此外，人类的创造力似乎越来越多地依赖于以往经验的随机性――能够让研究人员注意到别人没能注意到的特殊生活事件。尽管契机一直是科学发现的一大因素，但目前它所发挥的作用大大超出了应有的作用。

　　化解当前危机的一个有前景的策略是将机器和人工智能应用于科学过程。机器的存储能力和计算能力均高于人脑。科学过程的自动化可大幅加快科学发现的速度，甚至可能开启一场新的科学革命。这种巨大的可能性取决于一个同样重大的问题：科学发现真的可以实现自动化吗？

　　通过使用一种我们在几个世纪以前就熟悉的方法，我相信可以做到这一点。这个问题的答案可以从17世纪英国哲学家和现代科学先驱弗朗西斯·培根爵士（Sir Francis Bacon）的著作中找到。

　　早在几百年前，强调经验主义和实验的伊本·艾尔-海什木(Ibn al-Haytham)等思想家就率先重申了这种科学方法。然而，最先正式构建这种科学方法并使其成为研究主题的人却是培根。在培根所著的《新工具论》（1620）中，他提出了一个现在仍被称作培根法（Baconian method，又作培根归纳法）的发现模式。他反对用演绎推理的逻辑进行科学综合，认为这种方法并不可靠。相反，他提出了一种方法――使用归纳逻辑生成可概括的思想，系统收集有关某一特定现象的观察结果，然后将其列成表格并进行客观分析。在他看来，只有当思想不被残缺（因此是错误的）的公理禁锢时，真理才会显现。

　　培根法试图通过描述科学综合的步骤并且分别对其进行优化，去除观察和概念化过程中出现的逻辑偏见。培根希望利用一个观察者群体收集大量关于自然的信息，并将其汇总为可以进行归纳分析的重要记录。在《新工具论》中，他写道：“经验主义者好比蚂蚁，它们只是收集物品加以利用。理性主义者如同蜘蛛，它们只是吐丝结网。而蜜蜂的方法最好，它们采取一种折中的办法：采用现成材料并对其加以利用。

　　如今，培根法已经鲜有人使用。事实证明，这种方法太过费力，而且代价高昂，技术应用也都不甚明朗。然而，在当时，这样一种科学方法的规范化可谓是革命性的进步。此前，科学属于形而上学，只有少数知识渊博的人才能涉足其中，而他们大多出身贵族。培根否认了古希腊人的权威，并对发现的步骤进行了阐释，描绘出一幅无论出身贵贱，人人皆可成为科学家的蓝图。

　　培根的见解还揭示了一个隐藏的重要真相：发现过程具备固有的算法。它是数量有限的步骤的结果，这些步骤会不断重复，直到出现有意义的结果。在描述他的方法时，培根明确使用了“机器”一词。他的科学算法有三个基本要素：第一，必须将观察结果收集起来，并整合到整个知识语料库中。第二，新的观察结果要用于生成新的假设。第三，通过精心设计的实验对假设进行检验。

　　如果科学是算法，那么它肯定具有实现自动化的潜力。几十年来，这个未来主义的梦想一直被信息和计算机科学家无视。在很大程度上，这是因为科学发现的三个重要步骤处于不同的层面。观察属于感觉层面，假设的生成属于精神层面，而实验属于机械层面。科学过程的自动化要求机器在每一个步骤中都能够有效配合，并且三个层面能毫无摩擦地互相传输。没有人知道如何做到这一点。

　　近来，实验已经取得了重大进展。例如，制药行业普遍使用自动化的高通量药物设计平台。设在美国加州的Transcriptic和Emerald Cloud Lab等初创公司正在构建系统，让每一个生物医学科学家从事的体力活都实现自动化。科学家可以在线提交他们的实验，而这些实验会在网络上转换成代码，并被输送至可开展一系列生物实验的机器人平台。这些解决方案与需要进行密集实验的相关学科（如分子生物学和化学工程）存在极大的关联性，但类似的方法也可以应用于其他数据密集型领域，甚至延伸至理论学科。

　　自动化的假设生成并没有那么先进，但唐·斯旺森(Don Swanson)在20世纪80年代开展的工作向前推进了重要的一步。他证明了科学文献中的不相关概念之间隐藏联系的存在。他利用简单的演绎逻辑框架，在引文无重叠的各个领域的论文之间建立了联系。通过这种方式，斯旺森在未进行任何实验，自己也不是食用鱼油和雷诺综合症领域的专家的情况下，做出了这样的假设：食用鱼油和雷诺综合症之间存在新奇的联系。最近出现的其他方法，如芝加哥大学安德烈·柴斯基（Andrey Rzhetsky）和东北大学阿尔伯特-拉斯洛·巴拉巴斯(Albert-LászlóBarabási)使用的方法，均建立在数学建模和图论的基础之上。他们将巨大的数据集合并在一起，数据集里的知识被设计成网络，其中节点表示概念，而链接表示它们之间的关系。新的假设将会展现为节点之间未被发现的链接。

　　在自动化过程中，最具挑战性的步骤是如何收集大量可靠的科学观察结果。目前，人们尚未从观察层面建立可容纳人类所有科学知识的中心数据库。自然语言处理已经发展到了一个临界点，它不仅可以自动提取出关系，还可以从科学论文中提取语境。然而，主要的科学出版商已经对文本挖掘加以严格限制。更重要的是，论文的文本偏向于科学家的解释（或误解），而且包含难以提取和量化的复杂合成概念和方法。

　　然而，最近在计算机和网络数据库方面的进展使培根法在历史上第一次成为现实。甚至在科学发现能够实现自动化之前，只要纯粹的还原论超出适用范围，那么培根法就是极具价值的。

　　在大数据时代，人类的思维无法有效重建高度复杂的自然现象。结合还原理念的现代培根归纳法，可以通过数据挖掘（再以归纳计算模型分析这些信息）改变我们对自然界的理解。通过这样的方法，我们可生成更有可能是正确的新奇假设，填补人类知识的空白。它还提供了一个人们所急需的提醒，即科学应该追求真理、反对权威并享有无限自由。

资料来源 The Atlantic

责任编辑朝云