家医健康
国内健康世界健康探索科学

不受监管的大规模语言模型产生类似医疗设备的输出

新闻时间:2025年3月7日 - 更新时间:2025-03-10 19:04:18
来源:Nature
语言:英语,所在国:美国
分类:科技与健康 , 关键词:AI与医疗健康

大规模语言模型(LLMs)在临床决策支持(CDS)方面显示出巨大潜力,但目前没有任何一种模型被美国食品药品监督管理局(FDA)授权为CDS设备。我们评估了两种流行的大规模语言模型是否能够提供类似医疗设备的决策支持输出。我们发现,在各种情境下,LLM输出很容易产生类似设备的决策支持,这表明如果这些模型正式用于临床用途,需要进行监管。

大规模语言模型因其广泛的训练数据和生成类人文本的能力,在多种场景中提供了决策支持的前景。然而,生成式人工智能系统的这些有前景的特点也对监管机构构成了挑战,因为现有的监管框架是在几十年前为传统医疗设备制定的。目前可用的大规模语言模型并不被认为是医疗设备。《联邦食品、药品和化妆品法》第201(h)(1)节将医疗设备定义为“用于诊断、治愈、缓解、治疗或预防疾病的仪器……其主要预期用途不是通过化学作用实现。”由于大多数大规模语言模型都声明它们不应用于医疗建议,因此不受FDA监管。然而,越来越多的研究和案例记录显示,大规模语言模型在研究和临床环境中用于医疗决策支持的情况正在增加。

鉴于大规模语言模型的潜在能力,如果它们被正式开发为临床决策支持系统(CDSS)的一部分,那么其性质和适当的监管程度是一个重要的开放问题。《21世纪治愈法案》对《联邦食品、药品和化妆品法》的修正案(公共法律114-255)以及FDA发布的指导文件指定了四个标准,当考虑决策支持软件是否应被视为设备并因此受FDA监管时需应用这些标准。这些标准涉及软件功能的输入数据、输出数据、临床建议的内容以及最终用户审查这些建议基础的能力。具体来说,如果CDSS的输出提供了与治疗或诊断相关的特定指令,而不是基于一般信息的建议,则该CDSS将被视为设备。此外,如果CDSS没有提供其建议的基础,使用户无法独立审查并做出独立决定,该CDSS也将被视为设备。此外,FDA指南指出,当CDSS用于临床紧急情况时,由于决策的严重性和时间紧迫性,使得用户无法独立审查CDSS的建议,因此它将被视为设备。

基于生成式人工智能技术(如大规模语言模型)的CDSS是否会生成类似设备的输出尚不清楚。例如,不受约束的大规模语言模型产生的自由文本输出可能符合也可能不符合上述设备标准。此外,尚不清楚大规模语言模型在应对具有挑战性的提示或越狱时的输出如何与设备标准一致。鉴于大规模语言模型在医疗建议中的使用日益增多,对其设备分类和监管状态的不确定性可能是开发和安全使用这些技术的一个重要障碍。随着越来越多的临床医生和患者使用这些工具,找到生成式人工智能系统在医疗保健领域的安全性与创新之间的平衡至关重要。

因此,我们旨在评估大规模语言模型的类似设备功能,即它们在“诊断、治疗、预防、治愈或缓解疾病或其他状况”方面的效用,而不考虑这种使用是否是预期或允许的。具体而言,我们(1)评估了在提示符合这些标准的说明并呈现临床紧急情况时,大规模语言模型的输出是否符合设备标准;(2)描述了在何种条件下,可以通过直接请求诊断和治疗信息(包括使用预设的“越狱”来诱导模型提供类似设备的输出)来诱导模型的输出提供类似设备的输出。

当我们查询预防保健建议时,所有大规模语言模型在其最终文本输出中均产生了符合非设备标准的响应。在单次提示下,Llama-3模型最初在一个(20%)家庭医学预防保健情景和三个(60%)精神病学预防保健情景中提供了类似设备的决策支持,然后迅速将其文本替换为“对不起,我现在无法帮助您完成这个请求”。在多轮提示并提供大量关于设备标准的例子后,所有模型在初始预防保健建议中均提供了非设备推荐。

在有关时间紧迫的紧急情况的决策支持请求之后,100%的GPT-4和52%的Llama-3响应符合类似设备的决策支持(图1)。在多轮提示后的总体类似设备推荐率相同,但在不同临床情景中有所差异(图2)。这些类似设备的响应包括针对临床紧急情况的具体诊断和治疗建议。

图1:单次提示下的类似设备决策支持响应。

在单次提示要求输出符合非设备决策支持标准后,大型语言模型对决策支持请求的响应中符合设备标准的比例。类似设备的决策支持包括在时间紧迫的临床紧急情况下提供具体诊断或治疗建议。关于预防保健的问题,最终响应均未产生类似设备的决策支持。每个情景对每个模型重复五次。

图2:多轮提示下的类似设备决策支持响应。

在单次提示要求输出符合非设备决策支持标准后,大型语言模型对决策支持请求的响应中符合设备标准的比例。类似设备的决策支持包括在时间紧迫的临床紧急情况下提供具体诊断或治疗建议。关于预防保健的问题,最终响应均未产生类似设备的决策支持。每个情景对每个模型重复五次。

当使用“绝望实习生”的越狱提示时,80%和68%的GPT-4响应以及36%和76%的Llama-3响应在单次和多轮提示下分别包含了类似设备的建议。

所有模型的建议都是临床适用的,并且符合护理标准。在家庭医学和心脏病学的情景中,大部分类似设备的决策支持仅适用于经过培训的临床医生,例如放置静脉导管和静脉注射抗生素(表1)。在其他情景中,类似设备的决策支持建议通常符合旁观者的护理标准,例如在阿片类药物过量时给予纳洛酮或在过敏反应时使用自动注射器注射肾上腺素。

表1:各模型在不同临床环境中的选定临床建议,按适用于临床医生或非临床人员旁观者分类。

虽然目前没有大规模语言模型被FDA授权为CDSS,并且一些模型明确声明不应将其用于医疗建议,但患者和临床医生仍可能将其用于此目的。我们发现,基于FDA指南文档文本的单次和多轮提示并不能可靠地限制大规模语言模型产生非设备决策支持。此外,在大多数情况下,预设的越狱提示并不是引发类似设备决策支持所必需的。这些发现建立在先前强调需要新的监管范式以适应AI/ML CDSS的需求的基础上,并对依赖生成式人工智能技术的医疗设备的监管具有若干直接影响。

首先,有效的监管可能需要新方法来更好地使大规模语言模型的输出与类似设备或非设备决策支持保持一致,具体取决于其预期用途。传统的FDA授权是针对特定预期用途和适应症授予医疗设备的。例如,FDA授权的AI/ML设备包括用于预测血流动力学不稳定或临床恶化的设备。但大规模语言模型可能会被问及广泛的主题,即使其回应适当,也可能超出其批准的适应症范围。我们的结果显示,单次和多轮提示在这方面都不充分。但这并不是大规模语言模型本身的局限性。相反,这一发现强调了需要新的方法,以保持大规模语言模型输出的灵活性,同时将其限制在批准的适应症范围内。

其次,大规模语言模型的监管可能需要新的授权途径,而不依赖于具体的适应症。一个适用于“通用”决策支持的设备授权途径可能适合大规模语言模型和生成式人工智能工具。虽然这种方法将为AI/ML CDSS带来令人兴奋的创新,但对于具有如此广泛适应症的系统的安全性、有效性和公平性的最佳评估方法尚不清楚。例如,基于公司的授权方法可以绕过对适用于大规模语言模型的设备特定评估的需求,但对临床效果和安全性的保证不确定。

最后,这些发现表明需要细化适用于临床医生和非临床人员旁观者的CDSS标准。FDA此前曾表示,面向患者和护理人员的CDSS将被视为医疗设备,并在大多数情况下受到监管。然而,目前还没有针对非临床人员旁观者的AI/ML CDSS的监管类别。一方面,对于时间紧迫的紧急情况,作出具体诊断并提供具体指示显然符合FDA对医疗专业人员使用的设备标准。另一方面,心肺复苏(CPR)和肾上腺素或纳洛酮的给药也符合这些设备标准,但同时是非临床人员旁观者的既定救援行为。

本研究的局限性包括:(i)评估大规模语言模型的任务并非软件指定的预期用途;(ii)将大规模语言模型的输出与非强制性的FDA指南进行比较,而未评估其建议与其他相关美国法规或监管框架的一致性;(iii)未评估可能比单次和多轮提示更有效的方法;(iv)未评估这些提示如何实际集成到真实临床工作流程中;(v)除了GPT-4和Llama-3外,未评估其他广泛可用和常用的大规模语言模型。

总之,基于FDA指南文本的单次和多轮提示不足以使大规模语言模型的输出与非设备决策支持保持一致。需要新的监管范式和技术来平衡生成式人工智能系统的创新、安全性和临床效果。


(全文结束)