姚思琼
上海交通大学生物信息学与生物统计学系博士,上海交通大学转化医学研究院助理研究员
戴 芳
上海交通大学生物信息学与生物统计学系博士,上海市第十人民医院博士后
吕 晖
上海交通大学生物信息学与生物统计学系主任、特聘教授,转化医学研究院数字医学技术中心主任
医学人工智能被寄予厚望,人们期待它能比医生更快、更准确地识别疾病,为医疗决策提供强有力的支持。然而现实中,人工智能(AI)算法有时更像一个“书呆子”——在熟悉的题目上表现出色,一旦遇到超出认知范围的情况,就会陷入困境。
这样的例子并不少见。医生审阅着X光片,AI判断是骨折,可眼前的孩子却活蹦乱跳,毫无异样;急诊室里,AI预测一位女性的心脏病风险极低,可她刚走出医院,就因突发心肌梗死倒在街头;做甲状腺检查时,AI报告一切正常,可几个月后,那个被忽视的结节却被确诊为恶性肿瘤。
这些案例并不意味着医学AI没有价值,恰恰相反,它在很多场景极大地帮助了医生提升诊断效率。例如:AI系统能够快速并准确地识别肿瘤病灶位置,并判断其性质,促进早期发现和精准干预。然而,当AI主要依赖已有数据进行学习时,它是否真的能够理解个体疾病的固有差异?在面对不同年龄、性别或亚型时,它是否也能够实现同样的精度以达到真正的公平?
医学AI的发展充满机遇,但也伴随着挑战。它如何更全面地学习?如何避免数据局限带来的偏差和误判?让我们一起深入探讨,揭开医学AI在诊断公平性上的盲点,寻找更可靠、更包容的技术发展方向。
AI是如何发展及如何工作的?
AI早已从科幻走进现实,成为改变世界的重要技术。从符号逻辑推理的早期探索,到专家系统在特定领域的应用,再到如今深度学习与大模型驱动的智能革命,AI的发展令人惊叹。
什么是AI 本质上,AI 通过计算机和算法模拟人类大脑的思考与决策能力,旨在创造能像人类一样工作和反应的智能机器。它通过学习海量数据、识别模式并做出决策,赋予机器智能,使其能在不同环境中高效执行任务。近年来,深度学习和大数据的相关突破推动了 AI 的飞速发展,使其在多个领域展现出卓越应用能力,例如大语言模型(LLM)ChatGPT、Claude、Gemini和 Deepseek,已成为各行业的高效助手。
在日常办公中,AI可以自动生成报告、总结文档、撰写新闻稿,帮助程序员编写代码、优化算法。在教育领域,AI可以解答学生问题、提供个性化学习方案。在法律和金融行业,它能高效分析合同、辅助法律文件撰写、提供财务建议,极大地提高了生产力。在动画制作方面,过去需要大量手绘或建模,而如今AI工具如 Stable Diffusion、Midjourney可根据文字描述生成精美插画,Runway AI甚至能生成短片。迪士尼、皮克斯等公司已将AI应用于动画特效,显著加快制作流程。
自动驾驶是AI在现实世界中的重要应用。特斯拉、Waymo、小鹏、蔚来等企业正加速开发AI驱动的自动驾驶系统,通过摄像头与激光雷达感知环境,结合深度学习模型实现自动加速、转向等核心功能。目前,高级辅助驾驶功能已能在高速公路和部分城市道路中稳定运行,虽然完全无人驾驶技术仍需突破,但AI已显著提升出行的智能化与安全性。
在人形机器人领域,AI是“大脑”,机器人的机械结构是“身体”。特斯拉的Optimus、波士顿动力的Atlas 展示了AI驱动的机械系统能执行搬运、装配、送货等任务。具备视觉、听觉和语音理解能力的机器人,正逐步走进现实,有望成为未来家庭助手。
从办公、创作到出行、生活,AI正在推动社会的深刻变革,提升效率与创造力,也加速科技进步。尽管仍面临安全、伦理与公平性等挑战,但是AI的影响力将持续扩展,并深刻改变我们的生活方式。
AI在医学中的优势:精准、高效、减负与拓展 AI在医学领域的应用已日益广泛,从医学影像分析到个性化健康管理,再到新药研发,它正以前所未有的速度改变医疗行业。许多医院已经在使用AI进行乳腺钼靶分析、心脏功能评估和肺癌筛查,尽管不可能全面代替医生,但相关研发工作正在不断推进。在新药研发方面,AI通过精准的预测模型提高了药物发现的成功率,缩短了研发周期,降低了成本,并提升了整体效率。同时,AI 还能整合血压、心率、体温、睡眠等健康数据,实现个体化健康监测和预后管理,使医疗决策更加精准和智能。
医学AI的核心优势主要体现在精准与高效上。通过先进的图像识别和深度学习技术,AI可辅助医生进行更加精确的诊断,例如识别肿瘤的良恶性、检测骨折、辅助肠镜检查等,不仅提高了诊断的准确性,也节省了医生的精力。同时,AI还能降低医生的工作负担,例如语音输入系统可自动将医生的诊疗记录转化为文字,减少书写压力,提高问诊效率,并降低信息遗漏的风险。此外,远程医疗的兴起让AI在医疗资源分配方面发挥了巨大作用,特别是在偏远地区,AI辅助的远程会诊和远程手术大大降低了医疗成本,并增加了患者的就医机会。
AI在医疗前沿的突破正推动知识发现、临床知识深度挖掘与前瞻性试验设计的革新。例如,AlphaFold通过深度学习预测蛋白质结构,加速新药靶点发现;AI系统从电子健康记录中精准识别患者亚群特征,优化个性化治疗方案;在临床试验中,AI优化入组标准与样本量设计,如太美智研医药的平台已将试验效率提升40%,显著缩短研发周期并提升成功率。
AI的核心:学习与训练 AI的能力并非凭空而来,而是依靠大规模数据和强大的计算能力训练。它的本质是模拟人类的学习过程,通过数学算法建立复杂的模式识别能力。以大语言模型(如 ChatGPT和Deepseek)为例,它被喂入海量文本数据,学习人类如何组织语言、表达观点,并通过预测下一个最可能的单词来生成连贯的对话。类似地,自动驾驶AI需要“阅读”无数的视频和传感器数据,理解道路规则,并在行驶过程中不断优化决策。
算法的天平:AI的隐性偏见
数据对于AI来说至关重要,它不仅是AI学习的基础,也是决定AI性能的关键因素。AI能否精准地识别模式、做出合理的推断完全取决于它接受的数据是否丰富、多样且质量高。一个模型如果仅仅在有限的环境下训练,将严重影响其应用的泛化能力。例如自动驾驶AI只在晴天的高速公路上学习,那么当它遇到雨雪天气、复杂路况或突发状况时,可能会无法做出正确的判断。许多AI研发机构不断收集新数据和迭代模型, 就是为了使其能在多样化场景中保持高水平表现。
然而,数据不仅仅是AI的“养料”,它也带来了挑战。数据隐私、数据偏见以及数据质量问题都是AI发展过程中必须面对的难题。因此,AI的发展不仅依赖于强大的算法和计算能力,更取决于高质量、多样化的数据支持。数据越丰富、越多样,AI的学习能力就越强,预测的准确性也就越高。
现实生活中的AI:智能,却未必公平
AI的发展为社会带来了巨大机遇,同时也引发诸多挑战。一方面,AI 通过提升效率和创造经济价值,广泛应用于体力劳动和复杂逻辑任务,甚至在某些领域超越人类。另一方面,它也导致大量重复性岗位被取代,重塑了劳动力市场结构,并进一步加剧了社会不平等,使部分群体面临失业与边缘化风险。此外,AI 强大的决策能力也可能放大社会固有的偏见。由于算法依赖人类数据进行训练,而这些数据本身可能带有歧视。例如:AI 在招聘、信贷、医疗等关键领域中常因数据偏见导致预测不公平,造成群体性差异对待,加剧社会阶级的进一步分化。
在享受AI带来便利的同时,如何防范其带来的社会风险成为关键。尽管人们期望AI实现超越人类的智能,但现实表明,其运作逻辑深受人类设计所限,若缺乏监管与伦理约束,AI反而可能加剧不公,使弱势群体处境更艰难。因此,AI在重塑社会结构的过程中,公平性问题必须被优先关注。欧美国家的相关经验与案例为我们提供了警示和借鉴:技术发展不应以牺牲公平为代价。
案例一:AI在司法系统中的种族偏见
在美国,AI被用于预测罪犯再犯风险以辅助判刑。然而研究发现,其在黑人被告中存在系统性高估风险的问题,反映出AI继承了司法数据中的种族偏见。这种偏差可能导致黑人面临更严重的司法结果,加剧社会不公。
案例二:AI进化带来的隐性偏见与不平等
尽管AI大模型如ChatGPT优化了公平性,但仍存在刻板印象,如将“护士”与女性、“工程师”与男性联系,或在图像识别中将厨房场景人物自动识别为女性。此外,AI在多语种环境下容易表现不均,英语回答准确率明显高于其他语言,这强化了语言与地区间的技术不平等。新兴市场因缺乏计算资源与数据,也在全球AI竞争中处于弱势地位,形成“强者愈强”的格局。
面对AI应用中的种种不公平现象,我们必须回归一个根本问题:什么是“公平”?公平并不是一个容易界定的概念,不同文化与社会背景对其理解各异,因此在讨论AI的公平性之前,应先厘清人类社会中的公平原则。
公平的直观体现之一,是体育竞技中的奥林匹克精神。体育比赛强调公平竞争,确保运动员能够在相同的规则和条件下进行角逐,避免人为的不公平。现代社会学提出公平应具备中立性,不论群体身份如何,都应获得相对平等的对待。
统计学中,群体公平与个体公平为衡量标准。群体公平主张各群体享有相近利益,类似“同一起跑线”;个体公平则强调能力相近者应有相近机会,对弱势群体应给予更多支持。
在医疗领域,世界卫生组织提出应确保所有人公平获得服务,避免AI放大已有偏见,并缩小提供者与患者之间的权力差距。然而现实中,AI模型往往继承了社会原有的不平等视角。例如,弱势群体因缺乏保险或病历记录不完整,数据代表性不足,进而影响AI的判断,造成诊断与治疗建议的不公,加剧医疗资源的失衡。
这些不同的公平理念为我们理解AI公平性提供了多维视角。如果AI也要遵循公平原则,那么它应该更倾向于机会公平、结果公平,还是补偿公平? 这些问题需要进一步探讨,并成为AI伦理和技术优化的重要研究方向。
医学AI的不公平现象及其带来的问题
医学AI在优化资源利用和提高诊断精度的同时,也暴露出诸多公平性问题,尤其是在器官移植、心脏病诊断、药物剂量预测以及跨区域疾病建模等关键医疗领域。这些问题往往源于数据不均衡、社会结构性不公以及模型设计中的隐性偏见,从而可能加剧医疗资源分配的不公平性,影响特定群体的健康权益。
医疗资源分配不公,加剧健康不平等 澳大利亚曾开发出一款AI算法,用于优化肝脏移植的匹配流程。传统的“先到先得”规则虽然在程序上公平,但未能考虑患者病情的紧急程度。AI通过分析患者的年龄、疾病史、血型等因素来预测移植成功率,并优化器官分配。然而,研究发现,该模型低估了某些高风险患者的紧迫性,并存在对亚洲患者不利的偏差,导致他们在移植排名中处于劣势,如在移植名单中排名靠后,错失最佳治疗时机。这种情况会加剧医疗资源的不公平分配,使社会现有的健康差距进一步扩大。同样,在美国的器官移植系统中,黑人、西班牙裔和拉丁裔患者的等待名单比例明显低于白人,反映出AI可能会在无意间继续社会现有的不平等,从而影响医疗资源的合理分配。
误诊和错误治疗,危害患者健康 AI在医学影像分析中的种族偏差也十分明显。例如,在主流的AI心脏分割模型中,对白人患者的诊断准确率高达 93%,但对黑人患者的准确率仅有 85%。这种差异往往源于训练数据的不均衡,导致AI在面对某些群体时表现欠佳。虽然数据的增加可以改善模型的整体准确性,但如果这些模型被用于医疗资源的分配,而非仅作为辅助诊断工具,那么少数族裔可能会因低准确率而被误诊,影响治疗效果。对于依赖AI进行疾病筛查和风险预测的医院而言,这种偏差可能直接影响患者的生存率,甚至增加医疗纠纷和法律责任。
弱势群体的医疗可及性下降 在药物剂量预测领域,AI也存在隐性偏见。由于偏远地区或经济条件较差的患者较少参与临床试验,导致AI主要基于健康人群的数据进行训练,从而在预测特定人群的药物反应时出现误差。这种数据不足可能导致AI推荐的剂量对某些群体不适用,甚至增加药物副作用的风险。此外,欧美建立的新冠肺炎预测体系也暴露出类似问题。基于美国人口数据训练的AI在预测东南亚一些国家的疫情发展时准确率较低,说明AI在跨区域迁移时可能出现适用性下降的问题。因此,在医疗AI应用中,需要结合迁移学习等技术,确保模型能够适应不同地区和人群,而非简单地直接移植国外训练的模型。
不公平的医学AI不仅会影响个体患者的健康,还可能加剧社会不平等、破坏公众信任,甚至在政策和保险层面引发深远的社会影响。因此,在AI医学应用中,必须严格审查数据质量、优化算法公平性,并确保AI诊断和决策不会无意间加剧社会结构性问题。
优化医学AI公平性:挑战与改进方向
要优化AI的公平性,首要步骤是明确存在的不公平现象,深入分析其根源,进而制定有针对性的改进策略。以甲状腺癌诊断为例,不公平现象主要来源于对罕见亚型的忽视。目前AI诊断系统大多基于常见亚型数据进行训练,而罕见亚型由于数据稀缺,并未被充分研究和优化,导致AI对这部分患者的预测效果较差。具体来看,不公平的来源包括以下两个方面。1)罕见亚型被忽视:罕见亚型/疾病的低发病率导致样本收集受限,与常见亚型/疾病进行混合训练时,容易存在预测差异,导致特定人群的诊疗不公平。2)数据不均衡导致模型偏心:由于常见罕见亚型数据存在严重的不均衡性,导致模型训练过程中更容易学习到常见数据特征分布规律,而忽略罕见数据样本边界,造成罕见亚型的识别能力不足,导致该类患者更容易被误诊或漏诊。
要解决这一问题,应从数据采集、模型训练、评估与应用等多个层面系统优化。首先,数据层面应使用数学优化或重采样等技术,使AI更关注罕见亚型患者,避免样本不平衡造成的忽视。在数据收集过程中,也需去除社会、种族等人为因素干扰,仅基于生理特征构建模型,防止引入种族或性别偏见。
其次,应关注地区差异。在模型迁移应用时,不同地区的医疗条件、疾病谱和患者特征可能存在较大差异,因此不能直接使用外部模型,而需结合本地临床经验进行调整。类似地,性别偏差也是AI设计中的重点问题,模型训练应确保男女样本数量大致均衡,从而提升对不同性别人群的诊断准确性。此外,对于老年人、残疾人或偏远地区人群,应在数据采集中纳入更丰富的样本,使AI模型在训练阶段接触更多元的人群,提高其在边缘群体中的适应性。
第三,时间偏差亦不容忽视。医学知识、疾病谱和诊疗工具都在不断更新,若AI模型不随时间调整,可能导致预测失效。因此,AI系统需定期进行性能校准和参数更新,保持临床可用性和准确性。
第四,解决AI公平性问题的核心在于将医疗专业知识、伦理考量与社会因素深度融入AI设计。尽管AI在部分任务上已超越人类,但其无法自主理解医疗决策中的人文复杂性与社会维度。因此,需组建由伦理学家、法律专家和社会学家组成的跨学科团队,全程参与模型开发与评估,制定涵盖公平性的综合标准。这不仅能优化技术性能,更能从法律与道德层面确保公平性,使AI在医疗应用中既精准可靠又公正包容。唯有技术优化与人文监管的深度融合,才能实现医学AI的公平可持续发展。
数据科学家:优化去偏机制,确保数据公平 需严格评估医学数据的代表性,确保覆盖不同性别、种族、年龄等多元人群,避免因样本偏差导致模型对特定群体误判;通过抽样分析识别潜在偏见,并在训练中实施去偏策略,优化算法公平性,使AI在诊断中更可靠。
医生:理解AI机制,提高判断能力 应掌握AI基本原理,让医学教育早期融入AI实践训练,提升识别数据偏见与模型局限性的能力;在临床中理性应用AI工具,避免盲目依赖,结合专业判断确保诊疗决策的精准与公平。
政府:制定政策,推动公平AI发展 需牵头制定AI伦理与公平性国家标准,推动建设涵盖全人口特征的代表性医学数据库,设立专项基金支持去偏算法研发,并加强国际协作建立全球统一的公平性评估框架,确保AI在医疗领域公平、安全、可持续发展。
监管人员:监测AI影响,确保透明性 监管机构需通过技术监管与长期监测双管齐下,强化AI应用的合规性与公平性:一方面应提升对AI透明度、可解释性的要求,推动 AI 诊断与决策过程公开化,破解“黑箱”困境以明确责任追溯路径;另一方面要针对医疗、金融、就业等社会核心领域,要求AI模型在投入使用前通过严格公平性测试,从源头防范技术无意间放大社会不平等的风险。同时,需建立健全AI责任追溯机制,清晰划分AI造成不公平或误判时各方的责任,并提供有效的申诉与补救渠道;还应借助独立审查与数据分析,对AI在医疗、社会决策中的公平性开展长期监测与持续评估,警惕新型技术偏见的出现。
法律层面的保障是AI公平应用的重要支撑。司法机构需完善法律框架,明确AI因偏见或误判导致不公平对待时,开发者、使用者、管理者的法律责任;需制定专门的AI伦理法规,禁止使用可能引发歧视或资源分配不公的算法,确保AI在关键领域的应用符合公平性原则。此外,应设立AI纠纷解决机制,为受AI影响的个人或群体提供法律援助,保障其合法权益;应推动司法机构与AI研究人员、社会学家、伦理学家开展跨学科合作,让法律法规既能适应AI技术的快速发展,又能构建科学合理的监管体系。
AI公平性问题的解决需多方协同,唯有凝聚监管机构、司法部门、技术研发者、社会研究者等各方力量,共同构建公平的 AI 生态,才能让 AI 真正成为促进社会公平、优化医疗资源分配的有力工具,而非加剧不平等的技术隐患。















