· 迄今数学在天文、物理和工程等领域得到了非常成功的应用,但数学在生物学方面的应用远不及在物理学那样必不可少;

· 在当今方兴未艾的生命信息遗传研究中,数学应该有所作为;

· 科学上新的重大突破往往伴随着新数学分支的诞生,在生命科学领域的未来发展中,生命科学家与数学、物理学家的合作将有非常大的空间。

 

2.1

记者:前些日子,我从中科院网站上获悉,您在中科院做了一个探讨“基因与数学”关系的报告,引起这两个领域很多人的兴趣。我很想知道作为一个在数学研究和教学上有造诣的知名学者,您是怎么想到要在这两大似乎联系不大的学科建立起某种联系的?

王梓坤:我是学习研究数学的。数学有自己的理论体系,一类是基础数学,一类是应用数学,再一类是计算数学。大家知道数学在天文、物理和工程领域得到了非常成功的应用,天文上很多小行星的发现,包括轨道的计算都有赖于数学;物理学更是如此,量子论和相对论的提出都深深打下了数学的印记;工程方面桥梁的设计、宇宙飞船和导弹的发射等都要用到大量计算,可以说数学的应用及其价值无可估量。但迄今数学在生物学方面的应用却非常滞后,尽管也可以举出一些应用的例子,如捕食和被捕食间的竞争模型等,但数学在生物学方面的应用远不及在物理学那样必不可少。

我认为,在当今方兴未艾的生命信息遗传研究中,数学应该有所作为。目前数学在生物学领域应用不多决不意味着生物学研究不需要数学,而很可能是由于生物系统涉及到如遗传、神经活动等高级生命运动,需要发展出一套适合于生物系统的新的数学,就像当年研究天体运动没有微积分的新知识不可想象那样,现在很可能需要创造出一种或几种应用到生命信息遗传中的新数学。事实上,近年来因生命科学迅猛发展引出的诸多新课题已经在向数学招手了,相信国内外数学界都会有人对这些问题产生浓厚兴趣。过去国内著名数学家姜伯驹院士写过一本小册子《绳圈的数学》,其中有一章讨论打结的数学是否可能用到遗传学中。但总的来看数学界在这方面做深入工作的人还不多。由于生命遗传的研究目前还只是开了一个头,还要研究许多年。因而数学怎样介入,是不是需要发展出新的数学?这些正是我感兴趣的原因。

记者:您的想法和观点我听来很有新鲜感。前些年国际上出现过Bio-X一词,认为生命科学要进一步深入发展,仅靠自身学科是不够的,而必须借助于物理学、化学、数学、工程技术等多种学科的力量,斯坦福大学的诺贝尔物理学奖获得者朱棣文等人在力推这件事,当然他们更多的是从物理学与生物学融合的角度提出研究课题。而数学介入生命科学研究确实鲜有所闻。王院士,以您之见,生命科学,特别是当今热门的基因组研究,会涉及到哪些数学问题呢?

王梓坤:物理学家介入生命科学研究的已经有一些了,国内物理学家中据我所知,就有郝柏林、张春霆等院士、罗辽复教授等参与了生物信息学等方面的研究。但数学家参与到生物学中的确实还很少。

为什么生命科学研究中会有数学问题?生物学家告诉人们说,一个生物的全基因组序列蕴藏着这一生物的起源、进化、发育等所有与遗传性状有关的信息。所有这些重要信息都写在由4种碱基(A、T、G、C)组成的基因组DNA那条长长的双链上。已知大自然各种生灵的千变万化仅仅是由ATGC四个字母排列的变化而致。我们的汉语基本上也就是由2000个左右的汉字排列组合,这些文字有规律地组合生出无穷多的语境。中文起码要2000个字才能组成各种文章,而大自然只需4个字母,所有生命体都是这四个字母的排列组合。四个字母何以能构造出如此无穷多的变化?生物学家告诉我们,四种碱基的基因排列决定20种氨基酸的蛋白质序列。排列不同所生成的蛋白质也不同。再进一步,不同的蛋白质序列导致了构象的不同,构象的不同又决定了功能的不同。可见排列是最基本的,排列中包含着极为丰富的信息。而在排列决定构象、构象决定功能的过程中就有不少数学问题。另外,现在知道那些构成基因的DNA序列中很大部分是非编码序列,即所谓的“垃圾DNA”,怎么区分编码和非编码序列?这也需要用到数学,如各种算法,通过比较,用已经认识的东西来比较还不认识的东西。再如从基因变化预测疾病。我们知道有些基因突变是正常和必需的,有些突变则会致病。研究基因突变需要用到概率论等数学,从基因突变预测疾病则涉及到概率统计。

如果再深下去探究排列如何决定构象?排列与构象间是怎么关系?构象又是如何形成的?我们知道,有些构象是缠绕的,有些是打结的,那么到底有多少构象?研究这些就要涉及各种数学分支,如涉及构象的就可能要用到拓扑学、几何学等数学分支,用到几何中弯曲、扭结、缠绕等理论。至于这些构象是如何决定功能的现在还很不清楚,需要用到何种数学就更不好说了,很可能需要创造新的数学才能解决问题。

记者:您以上的见解使我想起了我国胚胎发育生物学家施履吉院士前些年就提出的一个思想,即随着人类基因组序列基本测定后,生物学面临的一个更基本的挑战是如何读懂那些有30亿个核苷酸构成的天书。施先生当时就提出应及早部署,联合有关学科的专家,开展“遗传语文”的研究。我觉得施先生实际上是看到了要有包括数学家在内的多学科的力量来攻克生命科学难题的问题。

王梓坤:听你介绍施先生的观点,他能在比较早的时候就有这样的想法确实难能可贵。现在有越来越多的人,如云南大学的彭守礼、刘次全教授等开始注意到这一问题,即遗传语言的理解的重要性。我完全是从数学的角度来思考这个问题的:每一种语言都有文法,作为由ATGC四个字母排列的遗传语言,人们在不解其文法时面对的只是一本由4个字母、30亿文字构成,相当于3000部《红楼梦》的无法卒读的天书。这部“天书”是否有语法?如能发现这样的语法规则,并进而能理解其语法规则,那不就能津津有味地读懂它的内容了吗?

另外已知在大量的基因编码序列中,绝大部分是功能尚不清楚的所谓“垃圾”DNA序列,有人称对这些非编码序列的了解将是当今生物学面临的最大挑战之一。从语言学角度看,这些所谓的“垃圾”DNA与人类语言有相似处,即语言的冗余度。要认识这种语言可能涉及到很多数学问题,如数理语言、数理逻辑,甚至密码学。事实上已经有人,如陈润生教授等提出用密码学方法来分析DNA。

这些都是未定的领域,有志在此耕耘的人很有可能创造出新天地,既可以发现生物学中的新东西,也有可能创生出新的数学学科。我认为这并非天方夜谭。但有志于此的人必须有好的头脑,必须与生物学界有密切的联系,能熟练掌握计算机。我这里大胆预测一下,生物数学完全可能拿诺贝尔奖。

记者:您是否还能预测一下由于数学的加盟,未来的生命科学会发生哪些新变化?

王梓坤:我想自然科学每一个主要学科领域的革命性进展都或多或少地从数学那里得到力量,回顾科学史可以很清晰地看到这一点。如16、17世纪天文学家在研究天体运动方面之所以能够取得那么重大的突破,非常重要的原因是有了微积分这样的数学武器,牛顿不仅是伟大的物理学家,而且是了不起的数学家;爱因斯坦比较幸运,他在创立相对论过程中不需要创造新的数学,因为在早他60多年前就有人创造了黎曼几何。没有黎曼几何,相对论的严谨性就可能大打折扣。可见科学上新的重大突破往往伴随着新数学分支的诞生。

随着数学和物理学等学科越来越多地介入生命科学,会给生命科学本身的发展带来意想不到的结果,同时还会引出一些全新的学科。现在至少有两门新学科正呼之欲出:计算生物学。主要从事非线性序列统计分析,如分维、神经网络、复杂性、数学建模、计算数学等。这是一门从基因序列出发,运用数学分析方法研究21世纪科学面临的最重大挑战——生命发育问题;另外一门新学科是生物信息学。主要从事生物信息的获取、处理、储存、分析、解释,在这一领域生命科学家与数学、物理学家的合作将有非常大的空间。我以上所说很可能是班门弄斧,只是对科学有兴趣,目的还是为了促进科学发展。