美国国家基因组学研究所所长埃里克 · 格林回顾了这一领域的发展历程,并分享了他对未来的大胆设想。

11.1

1987年,当研究人员第一次用基因组学这个词来描述新近发展的DNA图谱学科时,埃里克 · 格林(Eric Green)刚刚从医学院毕业。几年后,他参与了当时尚为年轻的这一领域的标志性登月项目——人类基因组计划(HGP)的前沿工作。为了引导国家参与全球协作,1989年,国会批准建立国家人类基因组学研究所(NHGRI)。

1990年,整个人类基因组的测序工作开始进行,历时13年完成。2009年,格林成为该研究所的负责人。那时,NHGRI的任务已经包括将基因组学扩展到医学。这意味着会资助和协调旨在精确定位导致遗传疾病的基因突变的项目,开发遗传疾病的检测手段以及疗法。从更广义上来讲,这意味着会产生证据,证明DNA数据可以有效改善结果,甚至对并未真正罹患罕见疾病的人来说也是如此。

为了帮助描述这一过程,格林的任务之一就是定期整合该领域的战略远景。为了庆祝进展,确定技术差距,并激励科学家去追求最具影响力的研究领域,他的团队在2020年10月发表了最新预测。格林和他的同事首次为2030年人类基因组学可能实现的成果列出了10个大胆预测。其中包括:高中生将在科学展的活动中展示基因分析;在诊室里进行基因测试将成为与血液检测一样的常规工作。

测序竞赛开始后的30年,我们可能已经到达早期基因组学时代的终点。这是技术爆炸增长的时期,实现若干突破,如第一条狗、鸡和癌细胞的测序,廉价的家庭DNA测试。这个领域已经如此成熟:基因组学几乎存在于所有生物学领域——从对抗入侵的大黄蜂到酿造口感更好的啤酒。基因组医学也不再是纯理论,但它尚未广泛普及。虽然科学家已经绘制了人类基因组图谱,但他们还没有完全弄懂。在接受《连线》杂志采访时,格林谈到了基因组学的下一个10年。

2020年10月进行了人类基因组计划30周年庆典。当您环顾如今的现状时,该项目对医学产生的影响是否达到了您曾经的期望?

我从一开始就参与了人类基因组计划,我必须强调,当时我们并不知道自己在做什么。我们有一个大胆而冒险的目标,就是读出人类“基因说明书”中的30亿个字母,但我们当时并没有相应的技术。我们没有方法,我们那时甚至没有高效的互联网,没有参考样本。因此,作为参与了此项目的一名年轻医生,我可以想象有一天基因组学可能会成为临床护理的一部分;但我真的没有想到这会在我的有生之年发生。

如果我们回到10年前,根本没有人在医疗健康方面真正使用基因组学。我们曾经幻想:病人站在我们面前,我们不知道问题在哪,我们对其基因组进行测序并找出问题所在。这在2011年还只是假设,而现在已成为常规手段,起码对怀疑患有罕见基因疾病的人来说是这样。

这太令人吃惊了。但这与人类基因组计划设想要完成的目标还有相当大的差距。2000年,弗朗西斯 · 柯林斯(Francis Collins)在白宫发表讲话时说,可能需要15到20年的时间实现“治疗医学的彻底转化”,为从癌症到精神疾病的所有疾病提供个性化治疗。显然,这并没有实现,为什么?

部分原因是基因组信息的复杂性。如果医生准备使用这些信息,而病人准备采取行动,那么投资1000美元来测序基因组,在我们终身医疗的宏伟计划中都是微不足道的。所以,我认为这不是症结所在。问题的症结是:对于一个普通的健康人来说,我们不知道这些信息该如何处理。这也是我自己没有进行基因组测序的原因。

你还没有吗?

还没有。因为,虽然我们有能力进行测序,并且测序的质量会很好;但是,有这些数据和弄清这些数据的意义存在鸿沟。这就是为什么我们的大胆预测之一是:知道每一个人类基因的生物学功能。我们正在取得进展,但这一进展可能需要几十年而不是几年。

您能否指出任何正在加速缩小这一差距的新兴技术?

我只需要说说2020年的诺贝尔化学奖:CRISPR技术。很多时候人们听到CRISPR就会想到应用于人的治疗方法。但到目前为止,CRISPR更大的用途还是在实验室。有了CRISPR,我们可以对DNA的片段进行编辑,这些小片段不会进入人体内——它们会进入细胞系或细菌中,然后我们对这些细胞系或细菌进行测试,来检测这些编辑是否会造成功能性的影响。基因组编辑和基因组合成方法的结合越来越好,再加上越来越好的计算工具,将真正改变生物学发现的步伐。现在,我们总是依赖于发表的一篇论文,这篇论文只能提供我们关于基因变体的丁点信息。

这根本不成规模。所以,我们必须要达到这样一个程度,我们要做出数以百万记的改变,产生大量的数据,然后我们就有希望使用人工智能来训练计算机寻找模式。到那时,我们甚至不需要做实验,因为我们可以根据过去的1000次实验来预测某一突变意味着什么。展望未来,这些才是可能会带来改变的工具。

就数字化和所有生物数据分析而言,这似乎是巨大的进步。

在我们面对的巨大挑战中,至少有一半与计算相关。这是个好问题。从某些方面来讲,我们是自身成功的受害者:我们通过测序消除了众多技术障碍,而现在最大的障碍就是如何处理这些数据。科学发展的速度比我们计划这些事情的速度要快得多,即使是在美国国立卫生研究院(NIH)这样的地方也是如此。如果今天我能重新组织NIH,我会设立引领数据科学的单独机构。可是现在,我们还没有这样的机构。

未来10年,还有哪些障碍会成为我们面临的挑战?

我们现在面临的一个问题就是:并不是所有的保险公司都愿意为基因组序列买单,这对患有未确诊的罕见疾病的人来说是个问题。我们在癌症领域已经取得很大成功,基因检测已经成为主流,在产前检测方面也是如此。大约有六七百万的孕妇在2020年接受血液测试来筛查胎儿的遗传缺陷。

面临的另一个问题是:这项技术的应用不均衡。在斯坦福、哈佛和贝勒等大学,罕见遗传疾病患者的测序和诊断都非常好。但在蒙大拿州的农村地区,这类工作进展却十分不理想。因此,那里的障碍就是找到这样的医生:他们不在主要的学术医疗中心工作,在农村地区执业、受过良好教育、对基因组医学没有偏见。我们面临的风险是现有的健康差距的进一步扩大。如果只有最富有和最杰出的人能够获得基因组学方面的医疗益处,那将是一个悲剧。这些曾经假设的挑战现在正变得非常现实。

NHGRI将如何应对这些挑战?

当然,这很复杂。这些问题涉及社会的许多方面。但在2021年,我们要做的一件事是公布一项行动议程,创建更加多样化的基因组工作团队——包括研究和临床方面。如果工作团队能更加多样化,那么基因组学在医学领域的应用就会更加统一。这就是即将要做的事。

我们支持的另一个项目是努力获得参考基因组,用以捕捉人类各种维度的多样性。我们现有的东西无法做到这一点。如果我们从亚洲中部找一些人,对他们的基因组进行测序,我们想要将他们的变异与适当匹配的对照组进行比较,这样我们就可以评估:健康问题背后或导致健康风险的的任何罕见变异。如果我们所能进行比较的只有一种标准参照——就像我们现在所拥有的那样——碰巧是基于欧洲人的DNA,那么它就会具有误导性。因此,这项泛基因组研究的目标就是找到一组适当的、血缘匹配的数据集,并用于医学解释。实现这一目标也是我们的大胆预测之一。

你提到有些方面基因组学已经成为主流医疗健康的一部分,你认为基因组学医疗健康在哪些方面最难达到?

最难的方面是预防常见疾病——高血压、糖尿病、心血管疾病、哮喘、自闭症、阿尔茨海默氏症等。我们正在开始为这些开发多基因风险评分,但是我们仍然不知道其预测的真实性如何。

所以,这是一种将成千上万的微小基因变异的所有微小影响叠加的方法,你可以用它来估计某人罹患这些常见疾病的风险。

你说得对。我们投资一些重大项目,旨在研究多基因风险评分,看看多基因风险评分的预测能力如何,以及专业医护人员和患者对这类信息有何反应。另一个重大问题就是他们是否将采取行动——如果你的基因得分显示你患高血压的风险更高,或者有早期心脏病发作的征兆,那么,这会让你注意饮食和锻炼、少摄入盐吗?

你的医生可能会在获得这些信息后,嘱咐你从35岁开始每年做一次心电图,可是你会预约并去做吗?这才是真正的考验——基因组学是否真的能改变人们的行为。

那么关于基因组学和传染病呢?我记述过国内外为挖掘基因数据而付出的巨大努力,以便更好理解为什么冠状病毒会在不同人群身上引发如此广泛的症状。你如何看待这一领域对帮助我们摆脱这种流行病的贡献?

这些重要研究说明了为什么现如今基因组学会涉及生物医学的几乎所有领域。基因组学在帮助我们解读人们的基因遗传在多大程度上影响了他们对COVID的反应方面至关重要。

但我认为,人类基因组计划最重要的遗产之一就是它永久改变了科学家共享基因数据的方式。如果您留意了本次疫情的时间线,那么就知道对该病毒的首次报告是在2019年12月下旬。在那之后的两周内,病毒的序列即被公之于众。

我记得的,那实际上是我写的第一篇关于冠状病毒的文章——关于它如何成为公共卫生的一次真正的胜利。

没错儿!这个序列立刻被用来对病毒进行测试。这正是疫苗开发的第一步,现在已经被证实是有效的。如果你回到人类基因组计划启动之前,这简直就是闻所未闻。研究人员会对病毒进行测序,写一篇论文,提交并发表,几个月后,当论文见刊后,他们才会公布该序列。

这就是我们曾经的做法,直到我们提出:让人们尽早接触不完美数据比之后接触完美数据要更好。许多科学家担心这会有损他们获得资金的信誉。因此,我们还必须召集期刊编辑和资助者,让他们创造并执行一种新的规范。这对我们来说非常重要,因为人类基因组计划并不是传统的科学项目。我们创造了一种社区资源,所以我认为,基因组学在改变一些其他领域(比如传染病)的文化规范方面功不可没。它影响力最持久的遗产之一是它真正改变了科研规则。

资料来源Wired