随着基因数据库的逐渐充实,下一步将通过测定一组组基因的活性或者分析细胞中蛋白质的数量来弄清基因到底都干了些什么。

维持有机体的正常运转是一件十分复杂而又奇妙的过程。例如,从单个的受精卵细胞发育成为一个成人个体并保持健康而有活力大约需要100,000个基因,每个基因的活性都必须在精确的时间、精确的地方得到精确的控制。部分程度上归功于人类基因组计划,遗传学家们已经做了大量的工作,积累了关于这台复杂“遗传机器”的大量原始数据。目前已经有了足够长的特定序列能够明确地识别出一半以上的基因,现在,当一些研究小组正在做最后努力来定出人基因组总共30亿个碱基对的时候,其他一些小组正准备步入基因组后的时代,去弄清那些基因是如何协调一致地调节着整个有机体的。

要达到这一目的,最好的方法就是监测在不同发育阶段的不同组织中和不同健康状态下基因活性的涨落。但这却是一件麻烦的事,直到现在,在绝大多数情况下一次还只能分析一个基因。结果正如马里兰州Gaithersburg的基因组研究所的分子生物学家马克 · 艾达姆(Mark Adams)所说的,“我们对四分之三的已确认的基因的功能都一无所知”。他们这家私人研究所,也曾花大力气获得了大量的基因的部分序列,即表达序列尾端片段(EST)。

约翰 · 霍普金斯大学的肿瘤分子生物学家肯尼思 · 金泽勒(Kenneth Kinzler)和伯特 · 沃格斯坦(Bert Vogelstein)领导的研究小组和由加州斯坦福大学的生化学家帕特里克 · 布朗(Patrick Brown)和他的同事们发展了两种新技术,试图突破这个障碍。它们使得研究者们能够同时估计几千个基因的活性情况,在几周内就能得到过去需收集几年的信息。

遗传学家们急于想知道这些知识。美国国立卫生研究院(NIH)国家人类基因组研究中心的分子生物学家杰弗里 · 特伦特(Jeffrey Trent)说。“我敢保证从现在起一年内会有几十家实验室试图采用这些新技术”。他还解释说,“这些新方法的价值和独特性就在于它们能在大范围内观察基因表达的特性”。西雅图华盛顿大学的分子生物学家雷诺 · 胡德(Leroy Hood)补充说,这项技术的这种能力“非常非常重要”。“生物学的未来就在于对复杂系统的分析。你不可能通过观察一个基因的表达来理解整个系统的工作”。帕萨迪纳加州理工学院的分子遗传学家梅尔 · 西蒙(Me]Si-mon)认为:“这标志着我们所能做

的这种分析工作的一个新时代。这对于研究发育和分化控制的遗传机制是一个重大突破。”

寻找基因的研究人员在他们盲目的寻找中也可以采用这一新技术来寻找引起疾病的受损基因。识别 出那些在病变组织中活性有改变的基因将帮助研究者们很快找到那些可能带有致病突变的基因。制药工业当然也不会忽视所有这些应用的可能性。实际上,正由于预见到其中的商业利益,两个研究小组都为他们的技术申请了专利。霍普金斯小组已经将专利授权给新泽西州Allendale的一家叫Pharmagenics Inc的生物技术公司,斯坦福小组将专利给了一家新公司——Palo Alto的Synteni公司,这是由小组成员Dari Shalon于去年(1994年)创建的。

霍普金斯小组将他们的技术命名为基因表达系列分析(Serial Analysis of Gene Expression,即SAGE)。它基于这样一个事实,即假定从所有被研究的基因序列的相同位置都分别检出一段仅9个碱基对长的序列,那么就能用这些序列识别出人的基因。在特定组织中这些序列的数量就能作为基因活性的指标。

约翰 · 霍普金斯的研究人员通过分析在人的胰腺中表达的基因来演示SAGE技术。他们首先从胰腺组织中抽提出所有活动基因的产物——信使 RNA(mRNA),将其反转录成与原先胰腺中基因的编码部分序列相同的互补DNA(cDNA)。同时在这一步中,研究者们还用生物素分子标记了cDNA的3'末端(远端)。用限制性内切酶将cDNA切割成片段后,他们就利用能结合生物素的珠状链霉抗生物素蛋白分离出每一个带有cDNA3'末端的片段。

随后,他们用第二种限制性内切酶从那些片段中分别切出一个至少含有9个碱基对的DNA小片段。在整个过程中,研究者们还用聚合酶链式反应(PCR)把每个短“SAGE尾端片段”扩增几百个拷贝,将20到50个不同的尾端片段连接在同一个DNA分了中,然后克隆并测序这些分子。(SAGE方法还包括一个步骤,就是识别出那些特别容易被PCR扩增的序列,)“由于一次能够测出这么多的尾端片段”,金泽勒说,“一个技术员,用一台性能稳定的自动测序仪,住仅仅一个月内就能监测出20,000个基因的活性。”而用老方法的话,同样的工作要花上几年时间。

这个技术不仅能测出组织中哪些基因是活动的,还能测出其活性水平的高低。霍普金斯小组通过分析总共840条尾端片段,检测了胰腺基因的表达特征。(在实际实验中为了提高敏感性,需要筛选出几千条尾端片段。)这些尾端片段中的40%都只有一个拷贝,这是所能检出的基因活性的最低水平。但有77条尾端片段不只一个拷贝,而且,正如所预期的,其中最丰富的一些尾端片段是编码胰腺中特有的酶的,如胰蛋白酶原I和胰脂肪酶——其中有一条共有64个拷贝,占了胰腺中RNA的几乎8%。“每一种尾端片段出现的次数就是基因表达水平的指标,”金泽勒说。他把SAGE尾端片段比作超级市场中普遍使用的条形码,他说,SAGE方法“就相当于现金收入记录机在记录一个顾客所买的每种东西的数量”。

“SAGE方法十分管用。你很快就能获得大量的信息”,艾达姆说,“它为小型实验室提供了进行比较研究的潜在能力,使之能够利用迄今为止已经完成的所有EST测序结果。”胰腺实验也表明了SAGE方法能够应用于寻找新的基因。一些在胰腺组织中高频出现的尾端片段在基因数据库中并没有对应的序列。利用SAGE尾端片段,金泽勒-沃格斯坦小组在胰腺基因文库中克隆到这些基因,测定了它们的序列并添加到数据库中。

布朗和他的同事们也达到了和约翰 · 霍普金斯小组同样的目的——即详细描述在特定的组织或细胞中的基因活性——但他们并不是通过测定片段的序列,而是利用一种小型化的系统。这个系统基于这样一个事实:相似的DNA链能够与相同的互补序列结合或杂交。“假定你是来自那些正在疯狂地测定cDNA序列的实验室中的一个”,布朗说,“你已经有了几万条的cDNA序列,但并不知道它们是在什么地方表达的,而你想要快速地弄清楚。”利用他们的“微阵”分析法,每天就能监测几千个基因的活性。

为了说明他们实验的原理,布朗小组采用了一种叫拟南芥(Arabidopsis thaliana)的野生植物,也有人称之为植物遗传学中的果蝇。他们专门设计了一个电脑控制的微小双尖头叉子,在显微镜载玻片上滴几点溶液,每点含有来自拟南芥基因文库的双链cDNA。通过加热和化学处理将这个点阵固定在载玻片上以后,他们再加上用发红光染料标记的从拟南芥叶中抽提到的编码蛋白质的浓缩mRNA和用发绿光染料标记的从拟-芥根中抽提到的编码蛋白质的浓缩mRNA。叶或根+的cDNA与微阵上相应的cDNA结合的那些点上就发出红或绿色的荧光。

由一台带电脑的扫描器测得光的荧光特征就指示了两种不同组织中基因表达的相对水平,每个基因的绝对活性可通过与已知数量的标准cDNA比较荧光强度测得。有些基因的表达在一种组织中是另一种组织中的100倍甚至更多,布朗说,“如果对它们测序,或许正是你原来想要的东西。”例如,光合作用中的酶的基因在叶中是打开的,而在根中却是关闭的。最初做这项测试的时候,微阵上只含有45条cDNA,但后来该小组制作了有1800条酵母DNA序列的微阵,使得从一次实验中获得的信息量增加了40倍。

目前,这两种新技术都还处于原型阶段。“还需要看看哪一种技术更适合于推广使用”,特里特说。然而,其中任何一种方法——或者今后由此发展出来的类似技术一对许多研究都将是有用的。例如,研究一组组基因活性的协调变化如何将未分化的细胞转变成具有特定功能特性的细胞,如何激发分化细胞对射线、激素或其它外来刺激物的反应。又是如何使健康的细胞经历异常变化而导致疾病。还有另外一些小组正在努力发展其他一些新技术,可以直接判定细胞中都有哪些蛋白,虽然这项工作还不很成熟。

实际上,这两种基因表达的技术已经被用于应用研究中。两个小组都试图用它们来准确地区分正常细胞和癌细胞,霍普金斯小组的金泽勒说,“我们一知道SAGE方法是可行的,我们就开始计划比较正常大肠细胞和大肠癌细胞的基因活性特征。”金泽勒预计6个月内将会有确切的结果。同时,特里特和他的同事们正在和布朗小组合作,用微阵技术寻找肿瘤抑制基因,阻止异常的但并非癌变的皮肤细胞最终变为恶性细胞。

布朗和同在斯坦福大学的小组成员罗纳德 · 戴维斯(Ronald Davis)甚至已经开始一项更大的计划。当1996年酿酒酵母(Saccharomyces cerevisiae)的全基因组序列都测定完成后,他们将大量生产含有这种生物的全套共6500个基因的微阵。通过研究在不同条件下基因表达的变化——比如,当缺乏营养的酵母产生孢子时,布朗说,“我们将能观察到细胞什么时候启动不同的基因,从这些信息将得出关于基因作用的新假说。”

这些新信息目前已唾手可得,这使得遗传学家们的工作更加有趣,但也有可能产生出又一次的信息泛滥,金泽勒警告说。“这并不是Krebs循环”,他指的是装饰在许多实验室墙上的细胞主要产能系统的复杂图解,“我们现在将有的是一张100,000个不同基因的表达图谱。祝大家好运都能理解它!”

[Science,1995年10月20日]