哺乳动物基因图谱计划

发布时间：00年05月26日

Robert L. Strausberg等编译李伟

　　哺乳动物基因图谱(MGC) 计划是由美国国立卫生研究院(NIH) 实施的生产全长互补DNA (cDNA) 资源的一项新举措。该计划将向整个研究领城公开提供可查询的资源。MGC计划承担的任务包括文库的生产、测序和数据库的建立与发展，以及服务于获得一全套人类和其他哺乳动物的全长(开放读框)序列和表达基因的克隆的目标的对文库构建、测序和分析技术的支持。

　　要识别所有可能的转录的哺乳动物基因组区域还不是一件容易的事。这部分是因为很大一部分DNA不编码基因转录本，而且转录的法则和转录本加工的法则尚未完全为人所知。因此，一种特别有效的研究基因表达的材料就是cDNA，它是从一个完整的RNA分子逆转录而得的DNA，这个RNA分子代表了表达了的基因转录本的全部长度。

　　1991年，克雷格 · 温特(C. Venter)及其同事们创建了一种概念上完全不同的方法来建立系统的cDNA资源，称为“表达序列标签”(EST) 战略。尽管序列标签仅仅覆盖基因的一个片段，它使用的克隆一般也不是全长，但是它们对基因识别的效用马上就为人们所认识。到1993年为止，各种EST测序工作在私有商业机构中进行着，从总体上言，这些数据库对学术研究者们是得不到的。因此，公共EST测序计划得到了实施，也就有了现在GenBank中一个专门对EST序列进行管理的子数据库dbEST，它拥有150多万个人类ESTs (另外还有许多其他生物的ESTs)。这些ESTs是在全球范围的许多实验室生产出来的，其中主要的贡献者有“默克基因索引”(Merck Gene Index)，肿瘤基因组解剖计划(Cancer Genome Anatomy Project，网址为http：//www. ncbi. nlm. nih. gov/ncicgap/)，基因组研究所(TIGR)和哈佛 · 胡佛医学研究所。

　　对ESTs广泛使用的另一个关键性的进展是IMAGE联盟的形成(网址为http：//bbrp. llnl. gov/bbrp/ imagel/ )，该联盟由劳伦斯 · 利佛莫国家实验室领导，意在保证各种克隆的收集如同序列一样，为生物医学研究者们所查询和得到。通过该联盟的努力，根据EST序列而得的克隆可以以一种营利-非营利机构合作的方式以适中的价格得到。

　　对EST数据库及其数据的使用者们最大的挑战之一是理解这些相对短的序列彼此之间和它们与其他基因之间的关系。从这个角度出发，美国国家医学图书馆(NLM)下属的国立生物技术信息中心(NCBI) 开发了一系列算法，根据序列相似性将ESTs排列成簇，以此为基础构成了UniGene 数据库(http：//www. ncbi. nlm. nih. gov/UniGene/)。最近，3万多个UniGenes得到了系统的作图，使得EST数据库有机地与定位克隆计划结合起来，经常能整理出几个月或者甚至几年才能定位的疾病基因。

　　尽管公共的EST资源已经是一种极有生产效力的过渡性解决方案，它仍然在精确度上有局限性，这种局限性来源于识别EST所使用的一次性测序方法(single-pass sequencing)，和UniGene的类聚拼接过程中可能将紧密相关的不同基因混合在一起的可能性。

　　还有许多应用程序对部分序列是不适用的。例如，若要精确地预测一个基因产物的功能或结构或者分离其蛋白质产物，必需一个全长序列。

　　现在的数据库中全长序列仅有大约6000个，离8万到10万个人类基因的总数还相差很远。而且，当其他实验需要全长序列的实际克隆时，这种有组织的公共资源库还无法提供这些实际克隆。

　　但是，cDNA 技术在最近几年中有了实质性的进步。例如，诸如有关酶之类的提高产出序列的忠实性和生产效率的试剂已经工程化并应用在cDNA文库的. 生产中，果蝇基因组计划(http：//www. fruitfly. org/)就是这样的，所以，现在长度至少为3 kb的全长cDNAs的一大部分及其文库可以常规性生产出来了。而且，在来源于人类细胞株的RNA中初步应用这些技术已经得到了非常相似的结果。

　　因此，我们认为现在正是时候来启动一个MGC项目，目标是为整个基因组研究领域提供所有人类和小鼠基因的代表性序列和克隆，并且最终还能提供其他哺乳动物物种的序列和克隆。这个项目是在几次美国国立卫生研究院计划会议的讨论中酝酿而成的，这些会议还提出了最近5年HGP的规划。MGC项目由16个NIH的研究所承担完成，将由美国国立癌症研究所(NCI) 和国立人类基因组研究中心( NHGRI)领导。该项目的内容有： (1) 文库、克隆和序列的生产、分析和分发； (2)技术的开发。在其实施的第一年中，大约已经拨出了1000万美元专项资金，今后几年这个数字还可望提高。

文库和序列生产流水线

　　互补DNA文库和克隆我们相信，通过运用建立良好的cDNA方法学和使用初级细胞拟或是永生化细胞等人类细胞培养后得到的RNA开始，我们可以达到我们的目标，即生产出高质量的、对全长cDNAs有良好代表性的文库(远大于50%以上的克隆有完整的开放读框)。我们最初的方法是建立一条流水线来对长达3~ 4 kb的转录本进行克隆和测序，还要建立严格的检验方法如长度的选择来评估更长的全长转录本的分离效率。

　　全长测序流水线测序的目标是建立一条流水线，可以每年识别至少2万条高精确度的全长序列。在第一年的可行性测试阶段，目标是完成对大约5000条到7000条插入长度达3~4kb的全长cDNAs的测序。预期将有多个实验室参加这个项目，各种测序战略将得到探索，例如在转座子基础上进行连接、引物步移和传统的鸟枪法测序。另外，我们将继续就成本-效益比、通量和序列质量等方面来评估MGC测序的生产能力。在序列质量方面，为整个HGP所建立的那些标准(http：//www. ngi. nih. gov：80/Grantinfo/Funding/Staterments/RFA/quality_standard. html)将被用于MGC。

　　信息学通过MGC的网址(http：//www. ncbi. nlm. nih. gov/MGC)和由NCBI建立并运行的各种数据库，人们可以查询和得到从文库制备到完整序列分析的各种进展报告。MGC计划和其他由NCBI、NCI和NHCRI承担的计划所建立的各种分析工具，将大大促进对序列和克隆的注释(例如，与其他基因的同源性、基因家族、组织表达谱和多态性识别)。

　　技术开发尽管我们自信现有的技术能够满足全长克隆和序列的初步生产，但是本计划的完成将需要新技术的开发，这些新技术可以识别： (1)稀有转录本，(2) 非常长的转录本，(3) 具有特殊疑问结构的转录本。另外，必须开发新的方法直接从人类(或其他)组织中组装起高质量的文库，尤其是对于那些可得到数量很小和RNA提取很困难的组织。因此，我们将支持开发那些全长cDNA 特殊丰裕化的文库，例如通过大小的选择，用于更难测序的人类cDNA。

　　计划项目的管理 MGC的总体指挥由两个领导性的研究所： NHGRI 和NCI的所长担任。一个由NIH以外的科学家组成的外部指导委员会(ESC) 将对项目的各个方面进行监督，包括目前的项目分配、未来的规划和生产成果的评价等。

　　对全长cDNA测序将公布一项竞争性合同招标。这条流水线将通过一种灵活的合同机制进行资助，将由参加的NH研究所的负责人组成的一个小组(称为研究院内协调委员会，IICC) 监督。这种机制的选. 择是为了保证本计划能够不断地受益于新的寻求就业机会的科学家。

总体展望

　　当代生物学和生物医学研究的一个主要目标是发现和理解疾病和其他生物学现象的本质。对于彻底的遗传学分析，完整的基因(包括序列和克隆)的目录将是必不可少的。MGC项目就是为了生产这些重要的资源，它们将得到广泛使用，对生物学研究者们具有极其重要的价值。因为这些信息、克隆和产生的分析工具的价值只有当它们广泛地为学术界和产业界所用时才能得到最完全的实现，它们由非营利机构来建立是必要而应该的。除了识别这些编码序列本身而外，这些资源还将是学术界和产业界进行进一步的实验的基础，以便于在许多水平上理解基因的表达，以及基因产物的本质和特性。因此，开发和使用载体系统将是重要的，它将很好地适应于有效地将编码序列转移到各种哺乳动物和非哺乳动物表达载体中。

　　但是，还应该认识到，尽管每个人类基因的某个代表性cDNA的序列和克隆对于学术界有直接的功用，但它们代表的仅仅是谜底的一部分。有时候，转录本目录事实上是不完整的，因为建立有关战略来识别和编排其他的加工后转录本将仍然是一个巨大的挑战。

　　我们欢迎其他群体的参与，包括美国以外的学术界，来共同工作以完成这项雄心勃勃的目标。通过MGC网页、ESC 及其他途径，本项目将寻求资金投入来增加产出的资源，并且使未来的高通量基因组、蛋白质组和其他生物学研究计划相互联系起来。

　　[ Science， 1999年10月15日]