数据共享与数据保护，如何兼得

发布时间：22年10月28日

编译莫庄非

随着可用基因组数据体量增大，以及挖掘这些数据的新技术涌现，要实现数据共享与数据保护两方面需求的平衡，困难更大，挑战更多了。不同学科领域的研究者必须合作寻找新的解决方案。

过去20年间，基因组学在生物医学研究和医疗保健方面发挥了越发重要的作用。基因组数据已被用于高级诊断，也能帮助决策者制定关于患者分层及筛查的新策略，还可作为确定新靶点和开发个性化疗法的依据。共享基因组数据的意愿，以及维护这一共享原则的地方和全球倡议，在迄今取得的成功中发挥了至关重要的作用。在COVID-19大流行早期阶段，我们快速共享基因组数据，进而在创纪录的最短用时内开发出疫苗和疗法——这就是一个成功范例。

基因组数据不仅日益凸显重要性，其体量也以惊人速度增长。在21世纪之初，仅有两个人的基因组被测序。到2020年，据估计全球将有超过3 000万人可访问自己的基因组数据，每年产生的新数据量达到20亿～400亿字节。不过即便如此，要真正将基因组研究成果转化为可广泛应用的疗法，还需克服一些困难，因为可用的基因组数据大多来自欧洲血统人群，尚未覆盖全球大多数人口。鉴于可用数据量巨大，研究界和监管机构面临着平衡双重需求的难题，即允许研究人员访问数据，同时保护研究参与者和患者的隐私——这绝非寻常挑战。

调查数据确实表明，对个人隐私的重视和对潜在数据滥用的担忧，是影响公众参与基因组研究的主要障碍之一。这些担忧严重阻碍社区参与研究，进而影响了所收集数据的多样性，也伤害了全球基因组研究的利益。对数据安全的担忧并非没有根据，泄露基因组隐私数据可能会暴露敏感信息，并可能引起医疗保险损失、歧视和污名化等一系列问题，或损害家庭关系。另一个担忧是，数据如果未受到恰当保护，最终可能会被用于违背参与者最初意愿的应用程序。

已有一些技术手段可用于规避重新识别问题，包括数据匿名化、去识别化和数据聚合。可即便如此，仍很难实现真正的数据匿名。在一项概念验证研究中，工作人员分析个体层面的数据，根据来自参与者Y染色体上的短串联重复序列推断其姓氏，重识别其身份。他们还发现来自全基因组关联研究的汇总统计数据并非完全不受隐私泄露问题的影响。如果某人参与了全基因组关联研究，分入潜在敏感的特定组别，此事件是有可能被技术人员分析推断出来的。

尽管以上案例比较罕见，但有理由相信基因数据隐私问题只会变得更复杂。我们都与亲属共享我们的一部分基因，越多人进行DNA测序——无论是作为研究的一部分还是直接面向消费者的商业服务——重新识别的风险就越高。更大规模的可用基因组数据，再加上越发强大的人工智能应用，可能令现有的隐私保护愈加脆弱，引发新的社会问题。眼下被认为“安全”的东西未来可能就不安全了。

另一方面，随着计算方法变得更加复杂，我们有望利用新兴技术提出更周全的基因组数据保护的方法。最近提出的解决方案来自信息学和经济学领域，包括诸如同态加密的加密方法，同态加密技术支持在无需解密基因组数据的情况下对统计数据做计算。其他解决方案包括数据访问控制——例如，英国国家医疗服务体系（NHS）不久前宣布，他们正在过渡到“可信赖研究环境”模式，全世界的可信赖研究人员能在临时虚拟环境中访问和处理数据，而无需下载数据。类似的概念已被全球基因组学与健康联盟（GA4GH）采用。

基因组研究的不断发展，也对监管和审查机构的工作——审批与监督那些收集并使用遗传信息的研究——提出了新的挑战。在大多数国家，有权批准此类研究的审查机构，例如机构审查委员会或研究伦理委员会，往往是多学科交叉的综合性团体，负责对科研项目做伦理监督。不过这些团体通常不会强制要求纳入数据安全等方面的特定专业意见。

在大型基因组联盟中，负责数据保护的团队越来越多，专职数据访问工作的独立委员会也越发完善。不过最近的报告显示，机构审查委员会仍欠缺大数据处理方面的专业知识，这些专业包括计算科学、人工智能、数据伦理和隐私等。缺乏专业知识会带来两方面问题：一方面，它可能导致忽视数据保护方面的潜在威胁和漏洞；另一方面，缺少专家建议可能意味着不合理的整改要求，甚至导致项目无法获批。这两种情况都将阻碍科学进步。

基因组数据在促进人类健康方面的潜力巨大，但只有每个人都感觉安全，它才可发挥作用。因此，现在正是这个领域的从业者开始思考数据共享和保护问题的时候——如何以最佳方式处理基因组研究的大数据，保证数据的安全和隐私。解决问题的关键在于吸纳不同领域专家的专业意见及建议，这些专家可能来自信息、伦理和法律等专业。此外，让患者和公众参与其中讨论也非常重要。

资料来源 Nature

期刊目录 contents

卷首语

专稿

物理学

化学

生命科学