公共卫生专家从19世纪时就知道,信息可能是最好的灵药。哪些新数据流能帮助扑灭未来的流行病大暴发?

1865年的威廉 · 法尔。他写道:只有通过智力加工,事实才能构成科学的永恒真理

利河的源头在伦敦北部城郊,蜿蜒向南,直至伦敦东区,在格林尼治和道格斯岛附近流入泰晤士河。18世纪初,利河连着运河网络,支持着该地区日益增加的造船厂和其他工厂。19世纪时,利河已变成英国所有河道中污染最严重的一条,用来将伦敦市“恶臭产业”的排放物冲走。

1866年6月,名叫赫奇斯(Hedges)的劳工与妻子居住在利河岸边堡贝门利社区。如今我们对赫奇斯和他妻子几乎一无所知,除了他们逝世的悲惨事实:1866年6月27日,两人死于霍乱。

他们的死亡并没引起注意。从1832年霍乱传播至伦敦起,霍乱就一直在流行,在数周内造成数千人死亡。尽管1866年霍乱的流行在下降,但在之前的几周里,有零星的霍乱死亡报告,所以同居一处的两个人在同一天死于霍乱也并非闻所未闻。

然而,结果显示,赫奇斯夫妇的死亡是又一次霍乱暴发的起点。短短数周,利河周围的劳工阶层承受了伦敦历史上最严重的霍乱流行。当时报章上刊登的疾病记录呈现迅猛增长的可怕趋势。在SARS-CoV-2流行的时代,这些记录让我们着迷。在6月14日为周末的一周,伦敦东区有20份霍乱死亡报告,下一周为308。到8月时,每周的霍乱死亡人数近1 000人。伦敦有12年未经历过这样的霍乱大暴发。到8月的第二周时,伦敦市处于霍乱的围攻中。

接下来,和如今一样,第一道防御是数据。伦敦人能够实时追踪霍乱在东区的“大进军”,这主要归功于医生、统计学家威廉 · 法尔(William Farr)的工作。在维多利亚时代的大部分时候,英格兰和威尔士的公共卫生数据收集由法尔监管。你可以毫不夸张地说,如今我们周遭的新闻环境由法尔创造:在这个世界里,追踪新冠病毒传播的最新数字已变成最重要的数据流。

1866年,法尔已成为关于霍乱的理论的信众,这个理论最初在十多年前由伦敦医生约翰 · 斯诺(John Snow)提出,他认为霍乱是通过饮用水传播的。于是,当伦敦东区的死亡人数开始增加,法尔立刻着手调查该地区的水源。

到19世纪60年代中期,大部分的劳工社区都通过私营公司来获得供水。法尔决定,对近期霍乱中去世的人口进行分类时,不依据居住区而是按照提供饮用水的公司来分类。整合后的数据揭示出一个清晰的模式:大量患病的居民饮用了来自东伦敦水务公司的水。

该公司宣称,他们供应的水已经经过有效的过滤处理。然而,调查者很快追踪到污染源:东伦敦水务公司的配水库的储水未与附近的利河适当隔离。调查者查阅那年夏天早些时候的死亡报告,发现了赫奇斯夫妇之死,而他们就居住在配水库附近。检查他们的住所后发现,赫奇斯家的马桶将排泄物直接排到河中,使得霍乱弧菌进入供水系统,引发霍乱大暴发。这是一次精彩的调查,也是一次里程碑式的调查:1866年标志着伦敦历史上最后一次严重的霍乱暴发。

1877年的伦敦,人们在为街道消毒

疾病暴发有关的数据要如何用来控制疾病,并将未来的病例压缩到最少?法尔是最初对此进行系统性思考的人士之一。他帮助创造的这个领域被人称为流行病学。该领域的创新似乎并没有突破医学的传统模式,只是计数和识别模式的新方式。

在新冠病毒大流行时期,我们发现:尽管我们和维多利亚时代的人在科学技术和医疗上存在巨大鸿沟,但我们的处境与他们相同。我们缺乏保护未被感染人群的疫苗,没有治愈新冠病毒引起的COVID-19的特效药。目前,我们的主要保护手段是法尔在200年前构建的手段:收集和分析数据。数据让我们看到疾病在哪传播,哪的医疗体系在超限运转;数据使我们能够计算感染率、在地图中绘制疾病传播热点地区。

最终,医学会保护我们免受新冠病毒的侵害,但在目前,生命统计学是我们最佳的防御。在COVID-19大流行期间,数据收集与分析已涌现多个新实验,在危机结束之前,这些实验结果可能拯救数千性命。

威廉 · 法尔其人其事

威廉 · 法尔于1807年出生在乡村,敏而好学,年少时吸引到富有的赞助人和多位良师。在他们的资助与支持下,法尔先是跟着本地医生当学徒,然后在巴黎和伦敦大学学院学医。到法尔二十五六岁时,他已经在伦敦行医。但他的真正热情在于生命统计学:他是伦敦统计学会的早期成员,逐渐相信对于死亡率的宏观模式的认知能成为像传统医疗手段一样有效的救命工具。事实上,考虑到19世纪30年代的医学水平,数据是更有威力的工具。18世纪时,采用数据来理解生死模式几乎是商业利益—这门科学的发展是为了保险公司的利益。但法尔和数位同侪看到了生命统计学作为改革工具的潜力,认为用这个手段能诊断出社会的病害。

法尔在《柳叶刀》杂志上发表了数篇分析医疗数据的论文,在1837年被雇用为注册总署的“摘要汇编师”。注册总署是新成立的政府部门,任务是追踪英格兰和威尔士的出生与死亡数据。在法尔的鼓励下,注册总署开始在死亡报告上记录范围更广的数据,包括死因、职业和年龄。

法尔的职业生涯几乎全都在为注册总署工作,负责收集和整理数据:在数字中发现有趣趋势、比较不同人口子群的健康结果、发明新式数据可视化方案。法尔的生命统计学留下的是平等主义的遗产:它暴露出健康结果上的不平等情况。

清点死亡人数并非新技术:从伊丽莎白时代起,伦敦的堂区执事一直在发布每周一份的“死亡清单”。但法尔构思出新的清点方式,让信息变得有用。收集和发布数据并不仅是报告事实,而是更精妙、具备探索性的技艺:检验假设、提出挑战、构造模型。法尔加入注册总署的那一年,他发表了一篇文章:“事实无论如何繁多,都不构成科学。事实只有经过比较,按照自然关系整理,通过智力加工后,才构成科学的永恒真理。”

法尔用统计学来解答的第一个问题与我们当前的危机有关:都市密度对死亡率的作用程度。法尔第一批研究致力于乡村和城市的健康差异问题。

法尔不仅是收集数据的先驱,还率先构思出表现数据的独特方式。衡量社会健康情况的一种方法是法尔时代称为“寿命表”的办法:将给定人群的死亡率按照年龄来拆分。在一份早期报告中,法尔试验了呈现不同健康结果的巧妙方法,提取了从三个不同社区收集的数据。实际上,这是两座城市和一个乡村地区的数据的寿命表。以三联图表的形式观之,图示传递出清楚的讯息:密度决定命运。

尽管看到这些严酷的数字,但法尔仍然希望工业城市出现的健康危机能够得到改善。“城市的高死亡率是否无可避免?”法尔在注册总署的1840年度报告中写道,“第一批确认城市人口高死亡率的作家对这个问题持着阴郁或狂热的看法。城市被宣布为堕落、悲惨、疾病和死亡的漩涡,是‘人类的坟墓’。”然而,法尔继续写道:“有理由相信,人类在城镇的聚集并不必然导致灾难。”

法尔绘制的“寿命表”,发表于1843年的《注册总署对英格兰出生、死亡与婚姻的第五份年度报告》中

在同一份报告中,法尔关注到他收集的数据中另一个让人迷惑的模式,他称其为流行病作用定律,如今称为法尔定律。法尔分析利物浦的一场天花暴发时,将死亡计数分成10个不同阶段。死亡率上升到登记的第4阶段:“第1阶段的死亡人数为2 513,第2阶段的死亡人数为3 289,第3阶段的死亡人数为4 242;这几个数字在以30%的比率增长。”然而,他观察到,“到下个阶段仅增加6%,而且保持平稳,像到达抛物曲线最高点的抛射体,而这条曲线预先便能描述”。法尔定律首次尝试以数学方式描述传染性疾病的起伏。伦敦帝国学院提出的模型使得英国首相约翰逊放弃最初的群体免疫策略,而华盛顿大学的COVID-19预测大大影响特朗普的决策。所有这些预报都是法尔最初在1840年草拟的作用定律的派生物。我们讨论的压平曲线最初也是由法尔绘制。

新冠大流行与数据收集

维多利亚时代的科学家会一眼就认出忙于调查COVID-19的流行病学家整合的数据中的许多关键数据:感染人数、死亡人数、地点等。现今的生命统计学家能接触更广泛的信息,如抗体测试结果、患者的并发症,甚至是病毒的不同遗传品系。

但是,新冠大流行也暴露出我们收集数据方式中的几个关键漏洞。在新冠病毒传播的早期,全球并不存在让公共卫生官员和科研人员访问和分析已知病例信息的数据储存中心。 “在任何一次当代流行病中,对于共享综合开放数据源这一点,确实从未有过成功的推进。” 美国东北大学负责急性流行病学实验室的塞缪尔 · 斯卡皮诺(Samuel V. Scarpino)说道。

斯卡皮诺和一些志愿者在1月下旬组建了特别组织,推出了21世纪版的法尔死亡率报告,包含世界各地记录的COVID-19病例的开源档案。其他志愿者包括牛津大学研究员莫里茨 · 克雷默(Moritz Kraemer)和清华大学博士生徐波。2月初,COVID-19开放数据工作组已经汇总一万个病例的详细记录。如今,由数百名志愿者组成的信息网络已汇总全球142个国家100多万病例的记录。

当然,数据集的最大价值在于能提供线索,我们能借此了解疾病的未来传播路径,知道用什么潜在手段能阻断传播路径。约翰霍普金斯大学的流行病学家凯特琳 · 里弗斯(Caitlin Rivers)主张,新冠病毒大流行清楚表明,我们需要建立 “流行病预报中心”的新型机构。里弗斯将它类比为美国国家气象局那样的机构。里弗斯相信,进行有目的的投入后,“我们能做到与国家气象局一样的优秀程度,能为公众提供资讯,也能帮助决策者最好应对流行病暴发”。

预报的质量只能与支持预报的底层数据质量看齐,而在疾病暴发的情况下,大多数的数据收集工作都遭遇关键障碍:信息捕获太迟。在COVID-19的例子中,当普通人住进医院时,已经过去10天。“公共卫生报告通常都十分迟,”流行病学家拉里 · 布里连恩特(Larry Brilliant)说道,“从历史上看,不久便是暴发的顶峰,因为随着大众越发惊恐,他们越会去看医生,而医生会报告公卫官员。”

对于COVID-19这样的疾病,那些尚未出现症状和无症状携带者都能够散播病毒,那么病例报告上的滞后将会造成重大差别,可能导致疫情失控,也可能围堵疫情。以死亡告终的COVID-19典型病例遵循以下的时间线,病程能延长至30天或更久:感染→潜伏→症状出现前的传播→症状出现后的传播→访医问病→入院治疗→重症监护→死亡。

在标准治疗方案中,甚至在最乐观的情况下,数据收集工作也要到第10天访医问病时才开始。COVID-19已经推动众多令人振奋的实验,旨在将数据收集工作提前到更早期。一些实验用到了被称为“哨点监测”(sentinel surveillance)的手段,也就是在面临风险的危急人群中进行早期检测。“目前在对需要获知是否患病、是否隔离或看护的个人做检测。”纽约大学医学院流行病学科主任洛娜 · 索普(Lorna Thorpe)说道,“但要控制暴发,你需要知道病例出现在哪里,你需要抢在它前面。”COVID-19与1866年伦敦霍乱大暴发很像,对低收入群体的伤害最大。通常来说,这个群体接触到医疗系统的途径较少,而大多数数据都是在医疗系统内收集的。“在疫情暴发期间,这些群体需要我们关注,他们可能是最早感染的人群,也可能是我们了解最少的群体。”斯卡皮诺说。

最初数月里,关于COVID-19的数据几乎都指向出现严重症状、到医院就医的患者,背后的部分原因是有限的检测试剂盒。但哨点监测能瞄准尚未有感染症状的人群,这有可能在暴发之前检测到暴发的可能。索普指出,2019年启动的“西雅图流感研究”大获成功,这个行动设立检测亭,分析来自医院的样本,将家用鼻腔拭子分发给西雅图市的大部分居民,要求他们如果出现呼吸道感染症状,就寄送样本。令人瞩目的是,这个项目推进了首次在美国社区检测SARS-CoV-2传播情况的行动。

症状监测是另一项在对抗COVID-19的战斗中发挥重要作用的新兴技术。“西雅图流感研究”是这项技术的变种。其想法很简单:除了从进入医疗系统的病人获得的正式数据,在病人看医生或去医院之前就追踪疾病症状,补充相关数据。

还有一个颇有影响力的早期项目也利用这个手段,它就是“谷歌流感趋势”项目,始于2008年,是谷歌公司与美国疾控中心的合作成果。它并不直接追踪症状,而是分析与流感相关的谷歌搜索查询的模式:比如“我的孩子发烧了”或“疼痛不止”这样的搜索。接着绘制出其地理位置,在流感热点地区出现在疾控中心的监控系统之前确定其位置。2011年,波士顿儿童医院的流行病学家约翰 · 布朗斯坦(John Brownstein)帮助创建名叫“流感在你身边”的网站,它通过规模虽小、但有统计学代表性的志愿者,追踪发烧和其他流感症状,并仰赖用户提交的数据。在SARS-CoV-2暴发的初期,布朗斯坦推出新版本的网站,名叫“新冠在你身边”。布朗斯坦说:“大多数感染新冠肺炎的人症状都很轻微,很可能没有与任何医疗系统发生交互关系。自身报告症状的数据能帮助填补缺口,尤其是考虑到检测量有限的情况。”这个网站的访客要回答几个简单问题:所在地区?感觉如何?有哪些症状?收集的数据使得研究者能抢先在地图上标出热点地区,能有效将数据收集提前5天。2020年3月,大家关注纽约市的病例激增,而“新冠在你身边”早已获得低人口密度区域COVID-19症状的激增趋势。“尽管存在都市里的热点地区,”布朗斯坦说,“我们见到了郊区暴发的迹象,尤其在居民在市区有住所,在郊区也有住所的地区。”

新技术也让症状监测变得更可行。以旧金山为总部的初创企业Kinsa从2014年起就在销售一种能联网的体温计。根据Kinsa公司的首席执行官和创始人因德尔 · 辛格(Inder Singh)的说法,最初版本是为了让公司能检测到疾病的早期模式,又不必强迫人们改变日常习惯。“我们的想法是:让我们挑选出现有行为,人们生病在家时唯一会做的事。”辛格解释说,“他们会抓起体温计。”从消费者的角度来看,与Kinsa体温计的互动直接易懂,然而,体温计会将测试结果以匿名、带有定位的信息发送给Kinsa公司的服务器。这种全新的数据流使得Kinsa公司能够推出覆盖整个美国的“健康气象图”,能看到各个县发热报告的实时数据。

从2020年3月4日起,Kinsa公司的“健康气象图”开始追踪到纽约市具备统计意义的发烧数量的增加,这比纽约市完全封锁早19天。3月10日,布鲁克林记录的升高体温的人数比平时高了50%,暗示新冠病毒已蔓延到纽约市5个区,尽管官方发布的病例数依然不到200例。

我们当前数据的局限与地理而非时间有关。正如纽约大学医学院人口健康系主任马克 · 古雷维奇(Marc Gourevitch)的观察,为疫情暴发制图所用的大多数工具不够精细。古雷维奇说:“在许多城市的若干街区或不到1英里的距离,卫生健康情况可能有巨大差别。因此,如果您想要查看健康、风险和结果的变化,则需要对正在谈论的地理位置进行精细的查看,以便您能够考虑在这些小尺度上进行保护的策略。基本上,健康状况是由人口是否集中、能否上好学校、空气质量如何等小尺度上的差别决定。”按照默认规则,医疗数据都是以县为单位。但在纽约市这样的大都会里,一个县(区)就包括数百万人口,要以县为尺度来追踪快速传播的病毒就大错特错了。

数据与隐私

在许多情况下,为了保护隐私,人们故意采纳了广角视野的数据收集方法。数年前,古雷维奇帮助建立了名叫“城市健康仪表板”的线上资源,按照人口普查区来呈现社区的平均预期寿命,展现仅相距几个街区的不同社区在健康方面的巨大差异。然而,这个线上资源也引起了争议。“我们花费了数年时间并不断施压,才让州政府和疾控中心拿出了人口普查区的预期寿命预测值。”古雷维奇说,“因为对于隐私问题的合法关切,得耗费多年的努力。”

古雷维奇所看到的潜在解决方案是对暴发数据进行地理上的模糊化处理。在约翰 · 斯诺绘制的1854年霍乱暴发的著名地图中,他在单个街道地址上记录死亡人数,揭示出死亡事件聚集在饮水井周围。但在COVID-19这类疾病暴发之时,无需将镜头放大到如此程度就能弄清暴发在哪扩大。相对于用图钉在地图上表示某个地址的传染事件,古雷维奇提出的建议是故意让目标标定不那么准确:大概以城市街区而非某个住址为统计单位。这样的精细程度足以检测到疫情通过城市微社区传播的路径,又不会导致识别个人身份。

《1848至1849年间英格兰霍乱死亡率报告》中法尔绘制的数据视觉化图表,呈现了伦敦的气温与死亡率的关系

污水样本调查是最直接的方式

虽然这些疾病监测手段改进了法尔和斯诺于19世纪中期创造的基本模型,但它们有共同的特征:都是基于从人群汇集的数据,这些数据的传递或通过医疗系统或通过自主报告。

20世纪90年代初,荷兰微生物学家格特詹 · 梅德玛(Gertjan Medema)在莱茵河三角洲进行铁人三项赛相关的实验。梅德玛和同事感兴趣的问题是在开放河流中游泳对健康的影响。他们收集了河水,予以分析,观察河水中是否存在细菌、粪便病原体、肠道病毒和其他危险微生物等。当梅德玛的团队在等待结果时,突发新闻中报道了斯特雷夫凯克(Streefkerk)意外暴发了脊髓灰质炎,该城镇在测试地点下游6英里处。梅德玛分析了他们3周前收集的河水样本,在样本中检测到脊髓灰质炎病毒。“那是一次幸运的巧合。”梅德玛现在说道。

回到1992年,从公共卫生观点看,那些线索实际上毫无用处,因为其解读要耗费很多时间。但现今的化验工具使得科学家能在数小时内检测到病毒。因为人类的排泄物中有许多危险病原体,所以污水样本是调查社区病毒或细菌活动的最直接方式。梅德玛说:“当我看到中国暴发SARS-CoV-2疫情,我在那时就曾放言,病毒也许会来到我们国家,所以我们最好准备好污水监测,因为能够用污水来监测病毒在人群中的传播。”

2月6日,梅德玛和同事从荷兰的6个地点收集污水样本,包括阿姆斯特丹的斯希普霍尔机场附近的污水处理厂。他们假定病毒有可能最先通过航空旅行抵达荷兰。检测结果是阴性的。但在一个月后,当荷兰的疫情仍在最初期阶段时,他们回到同样的地点再次收集样本。这一次,他们在好几个地点发现病毒存在的证据。梅德玛说:“假如在10万人中有一人报告感染,我们就能发现病毒的信号。”在法尔的时代,废水是主要的流行病肇因,但在21世纪,废水可能给我们提供重要的数据。

并非所有病原体都会进入人类排泄物中。但对于SARS-CoV-2这样的病毒而言,与症状监测相比,废水监测有关键优点。“这类病毒的麻烦在于围堵不起作用,因为有许多隐性传播。”梅德玛说,“但我们能用废水监测手段提取病毒,污水监测能成为拉响早期警报的手段。”

动物疾病监测

将数据收集的时间前移的最极端技术是让民众彻底免于感染。19世纪40年代,法尔绘制的第一条流行病曲线的底层数据只限于人类出生和死亡模式。症状监测或废水监测使得我们能更早获得信号。但对于过去几十年间出现的许多令人恐惧的疾病来说,最早的人类病例是在更长的时间中出现的。“COVID、SARS、MERS、猪流感、禽流感、埃博拉、艾滋病等,这些疾病在某个时候都只是动物疾病。”拉里 · 布里连恩特说,“相对于症状监测,朝前推进两步就是动物疾病监测。在最近30年里,大约有50种这类疾病跨越物种,由动物疾病变成人类疾病。”

将法尔的生命统计学应用到动物疾病领域,在人畜共通传染病由动物跃入人类之前阻止它。我们要考虑监测蝙蝠、猪和鸟,这是在流行病层出不穷的时代里我们可以采取的做法。

资料来源 The New York Times