信息科学与数据合成

发布时间：16年01月17日

编译方陵生

本文作者莫纳什大学教授朱利安·艾略特（Julian H. Elliott）、渥太华大学教授杰里米·格里姆肖（Jeremy Grimshaw）和他们的同事们坚持认为，数据合成科学的发展，必须要与各种类型的大量健康信息结合起来。

　　如果你想知道，接触某些化学物质是否会增加你患结肠癌的几率，你可以很容易地从动物实验中找到支持证据，然而你有可能发现，流行病学研究告诉我们的却是一个完全不同的结果。

　　没有比涉及个人健康问题时所需要考虑因素更多的了。我们可以对人类的整个基因组，以及细菌、病毒和肿瘤的基因组进行测序，基本上，每一个来就诊的患者，都可以通过其电子医疗记录跟踪到他们的病史；来自可穿戴设备、智能手机应用程序以及社交网络站点等关于人们的生理、行为、饮食、运动，以及与他人互动的各种数据信息。由于数据开放和数据共享规范等的诸多变化，从而获得更多可以公开获取的数据。

　　然而，通过筛选信息来寻找关于健康问题的答案却变得越来越困难，甚至对于一些专家来说也是如此。数据通过不同的渠道获取，使用各种不同的方法生成，并且存储在不同的基础设施上。这些设施包括医院专用服务器和全球性的数据平台，如dbGaP、开放型基因数据库和临床信息数据库等。

数据的汇集与合成

　　要将来自不同数据源的数据汇集到综合性的数据库中来作为决策者做决定时的依据和证据，研究人员需要在当前的数据合成方法和工具的基础上，开发出更高层次的数据处理工具。研究人员通常通过一些相同类型的数据，例如临床试验的结果，以获得他们想要的信息。不同的研究方式和数据类型，都存有各自不同的优缺点，而将各种不同的信息综合起来，往往可以获得对问题更深刻的理解。

　　举个例子来说，治疗胃灼热的镇吐药西沙必利（Cisapride）于1993年在美国获得批准生产，但临床试验收集数据的过程却超过了整整十年，而这种药物产生的一种副作用，即导致威胁生命的心脏节律紊乱，是在结合对众多患者进行长期大规模研究后得到的临床数据中发现并最后得到确认的。

　　同样，从流感监测网上获得的数据（包括从初级保健诊所收集到的数据），可能与实际情况不符。比如，在谷歌上搜索相关流感症状时，可以实时收集到这些信息，但是其中的一些数据也有可能是不准确的。几乎可以肯定的是，最好的数据信息是来自各类不同数据的结合。

　　那么，我们如何将获得的极其多样化的数据信息汇集在一起呢？

　　正式形成“数据合成”，即将多个来源的数据结合在一起，以获得新的理解的方法首次出现于1970年代的社会科学领域内，并应用于其多个分支领域，支持了一些高影响力的决策，如药物批准等。通常，“数据合成”包括对所有相关、可用的数据进行辨别和排序，并对每一来源数据的优劣进行评估，同时根据数据的严谨程度和所要解决的问题，决定如何对不同来源的数据进行处理（有些数据可能会被排除），然后，结合数据库中的相关信息进行荟萃分析（译注：元分析或荟萃分析，其概念为对以往研究结果进行系统的定量分析）或定性评估。

　　例如，一家英国集团公司将来自临床试验的数据与荟萃分析的群组研究结合在一起，对一种孕妇服用的、用于预防她们体内产生对婴儿不利抗体的药物的有效性进行评估。在此例中，群组研究中不同护理条件所产生的潜在偏差得到了确认，其对研究结果的影响可降至最低。

　　然而，许多对大型数据集进行组合和分析的研究人员，很容易受到一些伪造的基因组数据或电子病历数据的影响，未能意识到数据综合工具及其潜在的效用。事实上，许多数据合成专家对常用的与医疗卫生相关的大型数据集分析工具并不熟悉。

　　我们认为，数据合成的核心元素必须与其他数据科学地结合起来，以开发出使不同数据具有更大意义的新途径。

数据的分析与偏差处理

　　科学家需要明确将不同数据结合在一起的目的、时机以及具体方法。例如，科学家需明确是否要把临床记录中的身体锻炼数据、在线问卷调查以及可穿戴设备的数据结合在一起。以及需明确何时并如何结合不同层面的数据。科学家还需要知晓将各种类型数据结合在一起可能产生的风险，并考虑将相关风险纳入分析的可能性。对于干预措施对临床试验和观察性研究的影响，分析师可使用风险偏差评估工具以及其他一些类似方法，以检测到并减少其他类型数据产生的偏差。这些其他类型数据是指源自于社交网络和移动电话等的数据。

　　另外，还需要在捕捉和呈现潜在信息源偏差的具体途径上取得共识。致力于医疗卫生数据基础设施和标准建设的公司或组织，需要将这一层面的元数据（关于数据的数据）结合到他们的系统中。

　　处理偏差的方法必须纳入到新开发的指导医疗卫生保健决策的分析系统内，包括那些基于自然语言处理过程和机器学习过程。透明与独立地评估这些新系统也将是重要的一环。

　　就中短期而言，大学和研究机构的资助项目和部门重组对于计算生物学家、计算机科学家、临床与人口健康研究人员以及数据合成专家之间的合作非常关键。例如，主要授予机构应投资于类似于英国国家健康研究所的专门研究项目。另外，有必要针对性地在贫困地区和国家投资开发数据的基础设施。从长远来看，适合于对不同类型数据进行分析、评价和整合的新型分析师将应运而生。

　　这些变化在医疗保健实践中将意味着什么呢？美国精准医疗计划（PMI）的目的之一是对癌症的预防。这意味着对各种基因产生的影响和行为因素、环境因素及其相互作用的充分理解。如果将不同领域的数据适当并迅速地整合起来，这一计划的价值将得到很大的提高。

　　PMI的另一个目的是开发新的癌症疗法。而更好的数据合成系统将促成更精准的药物开发途径的完善，同时对基因组学、动物实验和人体试验也将有更精准的了解。此外，一些医疗卫生保健资助机构，如英国的国民医疗服务机构和美国的医疗保险机构，也可以在临床试验、群组研究成果和手机及其他软件等途径获得的数据信息中，更好地了解到相关药物的疗效和副作用。包括美国药物安全主动监测计划和加拿大药物作用观察研究网在内，都在从不同的医疗卫生保健系统收集和汇集数据，以监控获得生产许可的药物可能产生的副作用。

　　我们不建议采用千篇一律的方法，但是社会也不需要太多的数据分析方法来支持各种有冲突的推论。随着数据集的日益庞大和丰富多样，我们必须确保通过运用严格和值得信赖的方法更好地对数据进行分析理解，并行不悖地开发利用这些数据。

资料来源 Nature

责任编辑遥醒