以前是个人见解影响科学界,现在生成的数据同样可以。本文作者,ENCODE首席数据分析协调员尤恩·伯尼(Ewan Birney)认为,为了达到既定目标,科学合作组织需要制定一套清晰的管理流程或行为准则,使决策的过程公开透明,便于参与者为完成这样的一个目标共同努力。
在过去的五年中,ENCODE已经初步建立起功能DNA元件百科全书,给科学界提供了参考样本。9月6日,ENCODE在《自然》等期刊上公布了30篇相关论文及处理后的项目原始数据和分析数据等全部数据。ENCODE促发了一种新的出版模式的出现,根据需求,其创建的网站可以把不同期刊上的相关论文整合在一起,我希望这能对生物学研究产生广泛的影响。
ENCODE项目已提交的信息规模庞大,数量惊人:在147种细胞类型中开展了至少1 600项实验,包括235个抗体和其他分析手段。主要论文有近450位作者,来自30多个不同科研机构。
与仅仅涉及一个或两个实验室的项目完全不同,ENCODE的复杂性决定了其不可能重复前者的工作方式。通常情况下,科学家为了更好地完成科研任务,会与少数合作者和实验室合作,或争取资助,或发表论文,做一些有利于科研或自身事业的工作。
这种工作方式并不适用ENCODE这样的大型项目。相反,研究人员必须专注于数据集的制作(数据集由多种数据汇集而成,类似于数据库架构――译者注)。这些数据他们可能用到,或根本用不到。但重要的是这是社会资源,不是个人的。这需要转变观念,即从单纯发表论文到实现数据输出。反之,衡量参与者的方法也需要改变,以前是个人见解影响科学界,现在生成的数据同样可以。
团队合作
涉及生物学领域的大型项目,如ENCODE、国际人类基因组单体型图计划(HapMap)或千人基因组计划(1000 Genomes Project),在进行大规模系统处理的同时,往往采用“目录”的方式创建基础资源,依次搜集信息,而不是聚焦感兴趣的领域,包括运用标准化方法、试剂和分析体系。项目投入由项目自身的规模决定,从全基因组分析到更小规模的以及假设性研究项目。
在处于数据挖集“大众化”时代的当下,大型项目的实施是否已经过了黄金期?毫无疑问,数据收集成本的降低已经改变了生物学领域中的一些游戏规则――几乎总是向更好的方向发展――面临的挑战则是如何处理这些数据。廉价的数据仅仅是扩充了大型项目的外延,研究人员仍需制作系统的参考数据集。就算有可能,也很难将少量的数据集合成参考数据集,或者说,很难将搜集到的数据拼接成一幅完整的基因表达图谱。
因此,一个系统的数据架构(比如基因组、功能组件或变异体)是必需的,实验可以围绕其架构展开,逐渐完善我们对实验的理解。ENCODE或千人基因组计划都属这种架构,但其主要产物不仅仅是原始数据的挖掘,还有经过分析的中间体,便于科学家们根据自己的需求选择合适的数据类型。
从1999年起,我一直参与各级合作组织的工作,直至2004年成为了ENCODE首席数据分析协调员。就我的经验而言,机构与机构之间的合作一般不会轻易获得成功,因为彼此来自不同的环境,亦或之间存在着竞争。如何让竞争对手为一个共同目标齐心工作,这取决于参与者要有一个良好的心态和意愿。
架构清晰
在我看来,大型项目要取得成功,必须构筑起一个透明的如同数据架构的组织管理架构。
这个架构不能参照现有机构固有的等级传统模式,甚至不能是由多个合作伙伴组成的一个虚拟机构。ENCODE是经过一个开放的同行评议过程来选择或评估参与者是否合适。这样的架构必须具备足够的灵活性,或随时间变化或资金来源把合作者作为一个个体来考虑,而不是作为一个独立的小组,同时还要允许预期之外的具有创造性的合作者加入。如果ENCODE仅仅依靠固定的机构或自助项目,它的工作不可能开展地如此深入。
不同领域的科学家在一起容易产生思想碰撞,擦出的火花可以防止所谓的“群体思维”。比如,对于技术上的进步,不同的实验室有不同的体验。如果大家过早使用尚不成熟的技术,或没能及时采用一个成功的技术,都是有害无益的。广泛地参与可以加强世界各地研究人员之间的沟通与互补。
然而,大型项目必须规避一个常见的错误,即权责太过分散,似无核心架构导致决策困难,同时还存在成员将注意力转移到自己感兴趣的领域而牺牲整体项目的风险。由于项目太过庞杂,不可能由一个人负责管理,没有人在所有领域都富有专业知识。由一个或几个项目负责人做出抉择的情况这在医学合作研究中比较常见,但我认为,他们还是缺乏真正意义上的专业经理人的气场。
理顺ENCODE核心管理架构是保证其成功的基础。管理层如同ENCODE的“脊椎”,负责项目的顶层设计乃至具体计划的推进,其中包括具有科学背景的来自美国人类基因组研究所(NHGRI)的项目官员负责资金管理以及与项目目标一致的顶尖科学家,乃至聘请了解项目任务的若干科研项目经理或其相关他人员。当时我作为研究组长,与ENCODE的其他两个项目协调人共事过一段时间。心得是,成功的合作组织都有相似的核心架构,这也是组织或推进项目实施的有效方式。
核心架构往往能解决一些更复杂的问题――无论是科学问题或是人员问题。例如,可以协调数据采集和数据分析之间出现的质量把控分歧。在涉及与众多合作者的沟通中,抑或在社会公众面前,运作顺畅的核心架构可以使决策过程更加透明。
与此同时,项目资助机构应更多地融入合作组织的创建过程中,并根据需求灵活地调节经费的使用,或从业绩不佳的合作伙伴处撤回经费。资助协议中经常有这些条款,不过资助机构很少使用。可以理解的是,行使如科学引导者的角色,也许会让资助机构感到不自在。但是,资助机构肩负着对项目监管的重大责任,它必须在必要时出手干预。
行为准则
科学合作中当然也存在交流沟通问题。研究组位于世界各地,不同时区。因而在多数情况下,他们无法面对面交流,而是通过用电子通讯手段进行沟通。国家、组织和个人的文化差异导致了误解和冲突。
要保证项目平稳运行,规则的制定是必不可少的。对大型合作项目来说,各方认可的规则是非常有益的,尤其是在吸收一些缺乏经验的合作者时。ENCODE已经有一些书面的规则在内部传阅,比如数据发布的守则。我们应该有更多的书面指导规则,包括如何在小组之间传递结果;怎样评价论文质量;如何以及何时该与项目负责人沟通,特别是在出现分歧的时候。
规则有助于合作伙伴朝向共同目标去努力,不会(自觉或不自觉地)形成分析数据使用上的垄断。期间,咨询委员会应定期从科学影响、执行力和有效互动上对内部或外部合作者进行审议并通过规则的制定。我确信,ENCODE没有限制对数据和分析的获取,但仍存在交流不畅的现象。
大型项目无疑受益于开放政策,允许新的或没有经费支持的分析人员的参与。当他们利用合作组织已公开的数据开展工作后,对他们的分析结果应一视同仁,不应将他们与那些已长期工作的成员区别对待。
当然,大型项目不可避免地也会出现一些差错或假象。在ENCODE中,我们意识到时间的耗费以及质量的把控意味着什么?大多数人认为,数据应该趁早向更大的群体发布。我们不能等到整个项目进行到半程后才用固有的质量控制系统来梳理所有的实验结果。当然,大多数实验是规范可信的,有些必须重做,还有一些则必须摒弃。
我们的质量控制标准和对数据要求在网上都有公示。尽管有些实验非常重要,并且在生物学上是完全正确的,但其结果可能达不到我们的质量控制要求。比如,某些蛋白质结合DNA的位点实在太少;又如,一个存在交叉反应的抗体(该抗体与一类分子结合),在实验中产生极好的效果,但它还能与其他非预期的分子结合,容易造成假象。我希望,我们应该尽快完善质量控制系统,进而推进整个项目的更加开放。
步入正轨
虽然合作组织在发布结果之前会存在一些错误,但数据公开后,各种分析会揭示出新的错误,特别是在数据公布的早期。在此过程中,项目资助者虽然需要用标准化方法衡量数据质量,但在早期数据生成中,合作组织关注地应该不是绝对误差率,而是能否迅速纠正错误。
原始数据和分析结果如何发布,资助机构有相当大的影响――应该设计好策略,将数据结果用途最大化。早期数据发布受到种种限制,当数据发现者发表论文后,大家才能对其数据进行分析检验。以现在的眼光看来,这种做法有些滞后或不合时宜。
新时代呼吁人们重新思考数据分析的阶段性,或注重公布项目中间阶段的分析结果,籍此更充分地利用社会上的资源――千人基因组计划在这方面做得很好。
一般而言,科学合作组织的影响力在其数据发布后的几年才会体现。即使该组织织已经解散很久,相关数据仍会重复被世界范围的为数众多的科学家引用。我们知道,已有100多篇论文引用了ENCODE的数据,其中一些人并不是合作组织的成员。我希望未来几年会有更多的人引用这些数据。
即使大型项目获得成功,我还是强烈地感到,大多数经费应该用于支持更小型的、更有创造性、假设性的研究。对于合作组织的参与者,我呼吁对他们更严格地对数据进行审核,使数据更清晰并得到更独立的利用。这似乎限制了数据的利用。但我相信,从长远来看,有益于科学家进一步推进科学事业的发展。
ENCODE是一个理解人类基因组的基本数据集,我对自己参与了这项工作感到自豪。其实有些事情我们可以做得更好,希望其他团队能从中汲取经验。
资料来源 Nature
责任编辑 则 鸣
――――――
本文作者:尤恩·伯尼(Ewan Birney),欧洲分子生物学实验室副主任,ENCODE首席数据分析协调员。