2000年6月26日,人类基因组工作框架图绘制完成。当时,科学界洋溢着乐观情绪,认为可以通过测序方法揭示人类的全部遗传信息,进而揭示人类自身的奥秘。现在看来,当时认为只要把序列搞清了就能解释生命奥秘的想法是过于乐观了,理解生命仍是一个遥远而艰巨的任务。
过于乐观的一个重要原因是,研究者大大低估了生命的复杂性。为此,《自然》这次的专题文章中就有一篇专门讨论生命的复杂性。其观点是,尽管通过人类基因组计划,我们基本知道了人类所有遗传信息,但是离我们真正读懂这些信息还很遥远。因为在生命体系中,交织着众多的基因、蛋白质、小分子等生物分子“元件”,这些生物分子之间有着复杂的、动态的相互作用。所有的生理和病理活动都是通过这些复杂的相互作用来完成的。人类基因组计划的完成以及它所推动的科学进步使我们充分认识到生命的复杂程度,同时也让我们看到了生命复杂性带来的挑战。
人类基因组计划不仅让我们对生命有了全新的认识,而且给研究者提供了生命科学研究的新策略。在人类基因组计划之前的经典生命科学主要表现为“假设驱动的科学”,即提出一个科学问题,再据此提出一种可能的假设,然后用实验对假设进行验证。而人类基因组计划的实施则推动了一种“数据驱动的科学”的研究方法的诞生,即首先是获取大量的数据,然后在数据分析的基础上提出假设和开展实验。显然,这是两种截然不同的研究策略。
10年后的今天,科学家们又是如何看待“假设驱动”与“数据驱动”?在《自然》杂志的这组文章中,以研究肿瘤享誉生命科学界的麻省理工学院教授温伯格就认为,假设驱动仍是当前生命科学研究的主要策略。而温伯格的同事则在另一篇文章中针锋相对地提出,生命科学研究应该由数据驱动。
这两种研究方法之争的背景其实就是对生命复杂性理解的差异。持“假设驱动”的科学家看来对生命的复杂性并未给予足够的重视。因为,假设的提出是基于已有的知识和理论;但那些全新的东西,如当前研究发现的各种非编码RNA,可能远远超出了我们能假设的认知范围。而“数据驱动”则首先是去尽可能多地搜集生物体的各种信息,在此基础上再考虑假设;这样一种方法可能更适合对复杂的生命现象的研究。正如那篇文章作者所言,没有数据,我们很可能都不知往哪里走。
需要指出的是,假设驱动和数据驱动的研究策略各有所长。那么,我们能否把这二者整合在一起,形成一种优势互补的新方法。系统生物学,这门被人类基因组计划催生的新兴学科,正是建立在数据驱动的大科学和假设驱动的小科学的有机整合基础之上。系统生物学的研究,可以是先由大规模的数据获取开始,也可以是由假设入手;而关键在于,其研究进程是一个假设驱动和数据驱动循环往复的过程。因此,我们相信,系统生物学的研究策略是认识生命复杂性的有效手段。
本文作者为中科院上海生命科学研究院副院长、研究员