一款基于医疗记录数据训练的人工智能(AI)模型,可通过个人病史评估其未来罹患1200余种疾病的风险及潜在发病时间。
AI长期以来一直是科幻小说和电影关注的焦点,不少作品探讨了与之相关的伦理和哲学问题。过去几年间,该技术已迅速突破虚幻领域,发展成为具备现实应用价值的工具,尤其是在医疗健康领域。当前,人们在持续推进利用AI来理解和预测人类疾病发生与确诊的时间规律的研究,此举不仅有望推动治疗手段进步,还可能引领医学新发现。
阿尔乔姆 · 什马特科(Artem Shmatko)等人在发表于《自然》(Nature)杂志的论文中提出了一种AI解决方案:基于大规模电子健康记录数据来预测个体一生中罹患1200余种疾病的概率及潜在发病时间。该工具最擅长预测未来20年内多种疾病发作的风险,相较于针对单一疾病的预测方法,可谓一大进步。
能够准确学习并模拟人类疾病发生过程的AI系统,必然也会针对与个人健康状况有关的复杂因素进行调整。这些因素包括人口统计学特征(如年龄和性别)、临床护理史(如既往诊断)以及影响健康的因素(如吸烟状况、体重指数或饮酒量)。什马特科及其同事开发的这个系统有望提高疾病检测的有效性。
该系统还可辅助临床决策——尤其是在结合个体治疗史生成一种被称为“数字孪生”的虚拟模型后。这种技术可用于模拟现实世界中的治疗方案与干预措施对个体产生的影响。换句话说,该系统可以通过将给定患者的病例与具有相似健康背景(尤其是那些确诊相同疾病并接受了相应治疗)的“孪生”案例数据进行比对,从而预测患者的临床结局。数字孪生技术在医疗领域尤为引人注目的地方在于,它能够在群体层面上预测治疗路径和健康轨迹,包括动态评估随着时间的推移人们罹患一些疾病的风险。
目前来看,现有模型的运算能力仍不足以模拟人类疾病轨迹(涉及多种疾病,会在一个人生命中的不同时间点出现)的历史演变过程。与预测单一时间点特定疾病的发生相比,模拟人的一生中各类医疗事件的发生,无疑是一项更为复杂且艰巨的任务。
什马特科及其同事在研究中探索了生成式AI技术——该技术通过分析训练数据集来生成新信息。他们采用的是基于大语言模型子集的一种AI方案,即Transformer模型。该模型构成了诸如ChatGPT等聊天机器人的技术基础。与此同时,他们还使用真实的电子健康记录数据来训练模型,这些记录包括人口统计学特征、诊断结果和与健康相关的行为数据等。
Transformer模型采用一种名为“位置嵌入”(亦称“位置编码”)的策略来识别某些人类语言从左到右(从前到后)的序列关系,从而捕获单词和短语之间的关联以预测接下来会出现的内容。这种策略同样适用于基于医疗记录数据进行训练的健康预测模型,因为这些记录揭示了诊断结果与生活事件之间的内在联系。例如,一个人开始吸烟之后,就可能会被诊断出肺癌。
一种可预测人类疾病发作轨迹的机器学习模型的输入和输出。什马特科等人利用基于大规模临床数据集训练的AI模型,开发出一种能够评估个人电子健康记录并预测疾病诊断结果的工具。该工具最擅长预测未来20年内的疾病发作轨迹。输入AI模型的数据(即“标记”)与时间点相关联,这些数据包括个人的性别、年龄以及与健康相关的因素,如体重指数、吸烟状况或饮酒量。当没有医疗记录时,研究团队会定期添加“无事件”标记。这避免了标记输入之间出现长时间间隔,从而确保模型运行良好
Transformer模型有两个核心组件:一个是编码器,另一个是解码器。编码器可以将特定时间点产生的输入(即“标记”,见上图)转换为数值向量表示。解码器则将这些向量表示重新转换回人类可读的文本。生成式大语言模型采用的正是Transformer模型的解码器组件。
什马特科及其同事的研究将Transformer模型从语言学领域跨界应用于医疗健康领域。具体而言,该研究采用位置嵌入法进行建模,在将患者年龄及其他健康相关因素纳入考量的同时,通过标记输入来记录和预测疾病发作的先后顺序。什马特科及其同事还改进了AI的“注意力机制”,他们开发的AI模型名为Delphi-2M,可用于预测个体未来的健康轨迹,即未来可能罹患哪些疾病以及潜在发病时间。
Delphi-2M使用英国生物样本库(涉及40万个体)的大规模电子健康记录数据进行训练,并通过丹麦覆盖190万个体的电子健康记录数据进行验证。通过比较该模型在不同人口亚组中的表现,研究团队深入验证了模型的有效性。这些验证实验的结果表明,这种基于Transformer架构的AI模型借助真实的电子健康记录数据能够精准模拟人类疾病的发作轨迹。
Delphi-2M还有许多潜在应用,例如,评估疾病风险或为临床决策提供支持。精准地预测疾病在个体一生中可能出现的时机,对于构建现实世界中个体的数字孪生体以加速医学发现而言至关重要。
在医学领域,成功开发数字孪生体的一个重要前提是必须能够突破现有预测模型的局限,实现对现实世界中复杂医疗事件的精准模拟。什马特科及其同事开发的AI模型可作为驱动此类数字孪生模拟的引擎。如果未来模拟技术能够进一步优化,临床医生或许就可以将患者的数字孪生体导入计算机,并基于先前电子健康记录中的疗效数据,通过海量模拟测试所有可用治疗方案和干预措施的潜在效果。什马特科及其同事的研究为加速数据驱动型医学发现开辟了广阔前景。
资料来源 Nature
—————————
本文作者吴永辉是美国佛罗里达大学医学院的副教授,研究方向包括自然语言处理、大语言模型、机器学习和基于电子健康记录的药物研发等












