专家对研究的反应:使用AI医疗结果预测模型可能对患者造成伤害
源新闻来源:Science Media Centre
语言:英语,所在国:英国
分类:AI与医疗健康
一项发表在《Patterns》杂志上的研究探讨了与使用AI医疗结果预测模型相关的潜在患者伤害。
彼得·班尼斯特教授,工程技术学会的院士和医疗专家表示:
“AI是在包含偏见的真实世界数据上进行训练的,这些数据既包括偏差也包括有助于做出更好决策的潜力。在医疗领域,如果广泛使用AI进行临床决策,可能会进一步边缘化那些已经难以获得治疗的群体。例如,对于AI预测生存率低的患者,他们可能不会被提供可能挽救生命的治疗。
“这篇论文证明,在许多临床决策过程中,仅仅依靠AI准确预测症状的能力有时会导致患者的不良结果。虽然作者明确指出还有更复杂的情景需要研究,但这项工作强调了在实际环境中使用的AI技术需要进行全面系统的评估,以决定AI是否真正改善了患者的总体健康结果。”
易卜拉欣·哈布利教授,约克大学自主保障中心研究主任表示:
“这项研究警告我们,过度依赖单一技术并仅根据其准确性来判断是危险的,而没有考虑到它适用于谁以及在什么情况下适用。为了在医疗保健中安全地使用AI,它需要适应医生的实际操作和患者的具体需求。这项研究特别关注AI的安全性,尤其是在最近发布的白皮书《避免AI关闭开关》中强调了AI应成为临床医生和患者的福利而非负担。治疗患者是一个随着时间变化的过程,取决于他们的需求和可用治疗方法。仅关注准确性和结果可能是误导性的,甚至是危险的。AI也可能表现出偏见,例如对残疾人或罕见病患者的偏见,这使得某些人更安全,但并非所有人都如此。”
伊恩·辛普森教授,爱丁堡大学生物医学信息学教授表示:
当被问及这些结果预测AI模型目前在NHS/NHS苏格兰中的使用情况时
“可以说,AI OPMs(结果预测模型)目前在NHS/NHS苏格兰中并不广泛使用。决策支持更多地与早期采用ML技术的医疗硬件系统相关联,例如MRI机器。在这里,它们通常与现有的临床管理政策并行使用,常用于辅助诊断和/或加快图像分割等过程。
“虽然诊断可能会受到论文中提到的问题的影响,但这与他们探讨的情景不同,因为它是确定性的,并且随后的临床决策可能会使用现有流程。这里的问题更多是性能导向的,即假阳性(过度诊断)和假阴性(错误或遗漏诊断)。这些是当前审批过程中审查的指标。因此,简而言之,我认为本文提出的问题在目前部署的诊断中并不那么严重。”
伊万·哈里森教授,爱丁堡大学外科和数据科学教授,医疗信息学中心联合主任表示:
“人工智能和计算机算法越来越多地用于医疗领域,以帮助做出艰难的决策。虽然这些工具承诺提供更准确和个性化的护理,但这项研究突显了一个令人担忧的缺点:预测本身可能会无意中通过影响治疗决策而伤害患者。
“假设一家医院引入了一种新的AI工具,用于估计膝关节置换手术后恢复不良的可能性。该工具使用诸如年龄、体重、现有健康问题和身体状况等特征。
“最初,医生打算使用此工具来决定哪些患者将受益于强化康复治疗。然而,由于资源有限且成本高昂,最终决定将强化康复主要保留给预测结果最好的患者。被算法标记为‘预测恢复不良’的患者会受到较少的关注,接受较少的物理治疗课程,总体上得到的支持也较少。
“结果,这些患者确实经历了更慢的恢复、更高的疼痛和更低的活动能力,似乎证实了预测工具的准确性。实际上,却是减少的支持和资源——由算法的预测触发——导致了他们的不良结果。模型因此创造了一个有害的自我实现预言,准确性指标被错误地解释为其成功的证据。
“这些都是影响英国AI发展的实际问题。研究人员强调,医院和政策制定者需要仔细监控预测算法在实际中的使用情况。这样做可以帮助确保AI驱动的决策真正造福患者,而不是无意中伤害最需要帮助的人。”
伊恩·辛普森教授,爱丁堡大学生物医学信息学教授表示:
“这是一项重要且及时的研究,增加了新兴证据,表明长期以来依赖预测性能来评估AI模型不足以支持其在医疗环境中的部署。这项研究采用了正式的理论方法,探讨了模型性能(模型预测的好坏)和模型校准(这些预测的概率可靠性)在预部署和后部署场景中的关系。研究发现,即使在简单的设置中,具有良好性能和校准属性的模型在部署后也可能导致更差的患者结果。
“直观来看,实施性能最佳的模型似乎是理想的,甚至必不可少的,但这些模型通常是基于历史数据进行训练的。这会固化关系,使得任何未来从历史过程中改变治疗从而改善患者结果的变化都会导致部署期间模型性能下降。这可能导致积极的治疗决策变化导致模型因性能低于可接受水平而被撤回,尽管它实际上改善了患者的结果。本研究的一个有趣发现是,部署时模型性能的下降实际上可能是模型表现良好的证据,而模型在部署时不改变性能可能意味着模型实际上根本无效;它只是强化了现有实践。
“作者发现,在广泛的设置中,存在‘自我实现预言’的风险,其中用于开发模型的历史训练将决策固化,或者更糟糕的是,使某些患者群体处于不利地位,因为对他们来说,从现有过程中改变治疗是有益的。他们提出了一个情景,即生长迅速的肿瘤患者由于模型预测的生存时间较短而决定不进行姑息性放疗。生长缓慢的肿瘤患者被推荐进行治疗,因为模型预测较长的生存时间,从而证明治疗副作用是合理的。然而,在这种情况下,放疗对生长缓慢的肿瘤无效,但对侵袭性肿瘤非常有效;模型支持了完全错误的结果。
“这项工作建立在近年来其他人的发现之上,进一步证明了需要从预测性能转向明确考虑治疗选择变化对患者结果的影响。黄金标准是长期在医疗保健中建立的随机对照试验,旨在直接测量新干预措施在部署中的有效性。全球范围内的AI工具监管正在迅速发展,但这些主要集中在部署前后的性能上,正如这项研究所示,未能捕捉到其在实践中的有效性,并有可能强化历史数据中的偏见。
“乍一看,这项工作可能令人担忧,但实际上这是一个非常令人鼓舞的发展,突显了如何评估和使用医疗保健中的AI模型的重要考虑因素。这些加深了我们对如何提高其安全性和临床有效性的理解,并强调了随机对照试验和深度整合临床知识到模型开发中的重要性。”
凯瑟琳·梅农博士,赫特福德大学计算机科学系高级讲师表示:
“这项研究展示了医生使用AI预测模型进行治疗决策的风险。当AI模型基于历史数据进行训练时,这些数据不一定考虑到某些医疗条件或人口统计学的历史性治疗不足。这些模型将准确预测这些人口统计学中的患者的不良结果。如果医生因为相关的治疗风险和AI预测的不良结果而不治疗这些患者,这就创造了一个‘自我实现预言’。更糟糕的是,这延续了同样的历史性错误:对这些患者的治疗不足意味着他们将继续有较差的结果。使用这些AI模型因此可能恶化历史上在医疗环境中受到歧视的患者的结局,这些歧视基于种族、性别或教育背景等因素。
“这表明在上下文中评估AI决策的重要性,并将人类推理和评估应用于AI判断。AI可能是准确的,但它们只能理解治疗决策的整个景观中的有限子集。这在现实世界中有重要的意义,因为它表明,如果要基于这些AI模型的预测做出治疗决策,人类监督和健全的伦理评估是必要的。在这种情况下,不加人类监督地使用AI可能会进一步嵌入医疗系统中的歧视和剥夺权利。
“这在医疗领域之外也有重要的现实意义。例如,《卫报》报道的‘杀人预测项目’(AI预测不良结果。这表明了此类预测AI模型的广泛影响力,并在使用之前充分了解其训练和范围的必要性">https://www.theguardian.com/uk-news/2025/apr/08/uk-creating-prediction-tool-to-identify-people-most-likely-to-kill)也可能导致相同的结果。历史上被过度执法并在司法系统中被过度代表的某些人口统计学可能会遭受与本医疗研究中讨论的相同的AI预测不良结果。这表明了此类预测AI模型的广泛影响力,并在使用之前充分了解其训练和范围的必要性。”
詹姆斯·N·温斯坦博士,微软研究院健康未来部门创新与健康公平负责人表示:
“虽然预测模型因其准确性而受到赞誉,但这项研究突显了一个关键缺陷:即使表现良好的模型在用于治疗决策时也可能导致有害的自我实现预言。重要的是要根据这些模型对患者结果的实际影响来评估它们,而不仅仅是预测准确性。强调‘知情选择’,即医疗决策应根据患者的意愿和偏好来指导,这对于确保治疗和结果决策随患者病情的变化而演变至关重要。”
(全文结束)
声明:本文仅代表作者观点,不代表本站立场,全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。