大型语言模型重塑医疗行业

更新时间:2025-04-07 20:57:05
源新闻来源:Medical Xpress on MSN
语言:英语,所在国:美国
分类:AI与医疗健康

当亚当·罗德曼(Adam Rodman)在2000年代是一名医学院二年级学生时,他曾经为了一个让医生们束手无策的病人去图书馆查找资料。罗德曼搜索目录,复印研究论文,并将它们分享给团队。

“这对病人的治疗产生了很大的影响,”罗德曼说。“大家都说,‘这太棒了,这就是循证医学。’但当时花了我两个小时。现在我可以在15秒内完成。”

如今,罗德曼是哈佛医学院的助理教授,也是贝斯以色列女执事医疗中心的一名医生。他现在口袋里装着一个移动医疗图书馆——一个智能手机应用程序,该程序是在2022年大型语言模型ChatGPT发布后开发的。

OpenEvidence——部分由医学院教职员工开发——允许他查询特定疾病和症状。它搜索医学文献,起草一份发现摘要,并列出最重要的参考资料供进一步阅读,从而在罗德曼面对病人时提供答案。

以各种形式的人工智能已经在医学领域使用了几十年——但不是像这样。专家预测,大型语言模型的采用将重塑医学。有些人将其潜在影响比作人类基因组解码,甚至是互联网的兴起。

这种影响预计将在医生-患者互动、医生文书工作负担、医院和医生实践管理、医学研究和医学教育中显现出来。

这些影响中的大多数可能是积极的:提高效率、减少错误、缓解全国范围内的初级保健压力、更全面地利用数据进行决策、减轻行政负担,并为更长、更深入的人际互动创造空间。

但也存在严重的担忧。

当前的数据集往往反映了社会偏见,这些偏见强化了弱势群体在获得和质量护理方面的差距。如果不加以纠正,这些数据有可能将现有的偏见固化到越来越强大的人工智能中,这些人工智能将越来越多地影响医疗保健的运作方式。

另一个重要问题是,人工智能仍然容易“幻觉”,即编造“事实”并将其呈现为真实。

然后还有医学不够大胆的风险。最新的人工智能有潜力彻底改造医疗保健体系,但前提是给予机会。错误的优先事项——过于尊重既得利益者,专注于金钱而不是健康——可能会使人工智能“革命”变成一场微不足道的边缘修补。

“我认为我们正处于一个奇怪的空间,”罗德曼说。“我们说,‘哇,这项技术非常强大。’但我们如何利用它来真正改变现状?作为临床医生和研究人员,我的担心是,如果我们不从大处着眼,如果我们不尝试重新思考我们如何组织医学,事情可能不会有太大变化。”

加固“摇摇欲坠的大厦”

五年前,当被问及医疗领域的人工智能时,艾萨克·科汉(Isaac Kohane)感到沮丧。青少年在社交媒体应用上敲击键盘的能力比许多医生都要强。他说,今天的情况完全不同。

科汉是医学院生物医学信息学系主任,也是《新英格兰医学杂志》新人工智能倡议的主编。他描述了最新模型的能力是“令人难以置信的”。

为了说明这一点,他回忆起自己早期对OpenAI的GPT-4进行了测试。他用一个复杂的病例——一个出生时生殖器模糊的孩子——来测试它,这个病例甚至可能难倒经验丰富的内分泌学家。科汉询问GPT-4关于遗传原因、生化途径、下一步的工作流程,甚至告诉孩子的父母什么。它通过了测试。

“这个大型语言模型并没有被训练成医生;它只是被训练来预测下一个词,”科汉说。“它可以像诊断复杂病人一样连贯地谈论素食菜单上的葡萄酒搭配。这确实是从计算机科学诚实的人来说,在未来十年内任何人都无法预测的一个量子飞跃。”

而且一点也不早。长期以来一直受到批评的美国医疗保健系统,因其成本高昂、效率低下且过分关注治疗而非预防而饱受诟病,已经开始出现裂缝。科汉回忆起一位新加入部门的教员找不到初级保健医生的事情,他对这些问题已经感到厌倦。

“我一直说医疗系统已经崩溃,而在波士顿,这种情况非常明显,”他说。“人们担心人工智能会带来公平问题。我要说的是,我们现在就有一个巨大的公平问题。除非你有很好的人脉并且愿意支付数千美元的礼宾服务费用,否则你很难找到及时的初级保健访问。”

早期对人工智能将取代医生的担忧已经让位于这样的认识:系统需要人工智能和其人力劳动力。科汉说,将护士从业者和医师助理与人工智能配对是几个有希望的情景之一。

“现在不再是关于‘人工智能是否会取代医生’的对话,而是‘人工智能,以及一群可能不像我们习惯的那些临床医生,是否会加固这个摇摇欲坠的组织医学大厦?’”

构建最佳助手

科汉表示,大型语言模型的推出方式——一次性向所有人推出——加速了其采用。医生立即开始尝试那些令人眼花缭乱但必不可少的任务,比如写保险公司的预授权请求,解释特定(通常是昂贵的)治疗的必要性。

“人们就这么做了,”科汉说。“医生们在推特上互相交流,他们节省了多少时间。”

患者也这么做了,寻求虚拟第二意见,就像那个孩子因反复疼痛被17位医生误诊三年的广为人知的案例。在这个广泛报道的案例中,男孩的母亲将他的医疗记录输入ChatGPT,后者建议了一种没有医生提到过的病症:脊髓拴系综合征,其中脊髓在脊柱内部绑定。

当患者移动时,脊髓不是平滑滑动,而是拉伸,导致疼痛。这一诊断后来被一名神经外科医生确认,并纠正了这一解剖异常。

当然,使用人工智能在诊所的一个明显好处是第一次就能让医生表现得更好。更大的、更快的病例历史、建议诊断和其他数据的访问预计将提高医生的表现。但最近的一项研究表明,仍有很多工作要做。

今年10月发表在《JAMA Network Open》上的一项研究比较了单个医生、使用LLM诊断工具的医生和单独使用LLM的诊断结果。

结果令人惊讶,显示使用LLM的医生在准确性方面几乎没有提高——76%对比74%。更令人惊讶的是,单独使用LLM的表现最好,比单独的医生高出16个百分点。

罗德曼是该论文的资深作者之一,他说,很容易得出结论认为LLM对医生帮助不大,但他坚持认为重要的是要深入研究这些发现。他说,在这项2023年的研究中,只有10%的医生在之前有过使用LLM的经验,其余的只接受了基本培训。因此,当罗德曼后来查看记录时,大多数人只使用LLM进行基本的事实检索。

“目前医生使用它的最佳方式是对疑难病例进行第二次意见,质疑自己的判断,”他说。“我哪里错了?我漏掉了什么?我还应该问些什么问题?这些都是我们知道的心理学文献中补充人类思维的方式。”

根据麻省总医院布里格姆人工智能和生物信息学学习系统中心的联合主任大卫·贝茨(David Bates)的说法,人工智能的另一个潜在好处是使医学更安全。

贝茨和他的同事们最近的一项研究表明,马萨诸塞州医院每四次就诊中就有一例会导致某种形式的患者伤害。许多这些事件可以追溯到药物不良反应。

人工智能应该能够寻找与药物相关的问题,并比我们现在能够做的更准确地识别这些问题,”贝茨说,他还是医学院的医学教授和哈佛公共卫生学院的卫生政策和管理教授。

另一位机会来自人工智能在日常事务中的日益成熟:记笔记和总结,根据医学院医学教育院长伯纳德·张(Bernard Chang)的说法。

“环境文档”系统很快就能监听患者的就诊过程,记录所说和所做的一切,并实时生成有组织的临床笔记。当讨论症状时,人工智能可以建议诊断和治疗方案。之后,医生可以审查总结以确保准确性。

自动化的笔记和总结将以多种方式使医疗工作者受益,张说。它将减轻医生的文书工作负担,这是经常被引用的导致职业倦怠的原因之一,还将重置医生-患者关系。

患者对门诊就诊的最大抱怨之一是医生坐在电脑前,提问并记录答案。摆脱了记笔记的过程,医生可以面对面地与患者坐在一起,打开一条通往更强联系的道路。

“这不是最神奇的AI用途,”张说。“我们都见过AI做一些事情,然后说,‘哇,这太神奇了。’这不是其中之一。但这个项目正在全国各地的不同门诊实践中进行试点,初步结果非常有希望。感觉负担过重和疲惫不堪的医生开始说,‘你知道吗,这个工具真的会帮助我。’”

偏见威胁

尽管功能强大,LLMs还不足以被完全信任。

“这项技术还不够好,以至于不需要一个知识渊博的人类,”罗德曼说。“我能理解它可能在哪里出错。我可以进一步诊断。我能这样做是因为我通过艰难的方式学会了。住院医生期间你会犯很多错误,但你会从这些错误中学习。”

“我们当前的系统非常不理想,但它确实训练了你的大脑。当医学院的学生与能够自动化这些过程的事物互动时——即使它们平均而言比人类更好——他们将如何学习?”

医生和科学家还担心错误信息。普遍存在的数据偏见源于生物医学的根源,即富裕的西方国家,其科学是由研究白人的白人男性塑造的,贝丝以色列女执事医疗中心肺部、重症监护和睡眠医学分部的医学副教授兼医生莱奥·塞利(Leo Celi)说。

“你需要了解数据才能构建人工智能,”塞利说。

“这让我们对医疗保健交付和医学教育的遗留系统的缺陷有了新的视角。很明显,现状如此糟糕——我们知道它很糟糕,我们已经接受了这是一个破碎的系统——所有关于人工智能的承诺都将破灭,除非我们重新编码这个世界本身。”

塞利引用了关于糖尿病住院患者中讲英语和非英语患者之间的护理差异的研究。非英语患者被唤醒进行血糖检查的频率较低,增加了错过变化的可能性。然而,这种影响是隐藏的,因为数据并不明显偏颇,只是不完整,尽管它仍然导致了护理差异。

“如果你讲英语流利,他们会给你做十次血糖检查,而不讲英语的患者可能只有一两次,”他说。“如果你取平均值,计算机不会看到这是一种数据不平衡。这里有很多缺失的上下文,专家可能不知道我们所谓的‘数据伪影’。这源于数据生成过程的社会模式。”

贝茨提供了其他例子,包括一种皮肤癌设备在检测高色素皮肤上的癌症效果不佳,以及一种调度算法错误地预测黑人患者的失约率较高,导致过度预订和等待时间延长。

“大多数临床医生并不知道我们所有的医疗设备都或多或少存在偏见,”塞利说。

“它们在所有群体中表现不佳,因为我们对它们进行原型设计并在通常情况下优化——大学年龄的白人男性学生。它们没有针对ICU中80岁且有多种并发症的患者进行优化,那么为什么期望它们代表的数字是客观的基本真理呢?”

暴露传统系统中的深层偏见为正确行事提供了机会,塞利说。因此,越来越多的研究人员推动确保临床试验招募来自地理多样地点的多样化人群。

一个例子是贝丝以色列的MIMIC数据库,该数据库反映了医院多样化的患者群体。该工具由塞利监督,以开源格式提供匿名电子医疗记录——笔记、图像、测试结果。

据他介绍,已有全球各地的研究人员使用该工具进行了10,000项研究,并计划扩展到另外14家医院。

灵活的时代

正如在诊所一样,实验室中使用的AI模型并不完美,但它们正在开辟有望大大加速科学进步的路径。

“它们提供了一些分子在原子尺度上的即时见解,这些分子目前实验上仍难以获得,或者需要花费大量时间和精力才能生成,”医学院生物医学信息学副教授马林卡·齐特尼克(Marinka Zitnik)说。

“这些模型提供了准确的计算机预测,科学家们可以在他们的科学工作中建立并利用这些预测。对我来说,这只是一个令人难以置信的时刻。”

齐特尼克的实验室最近推出了Procyon,这是一种旨在填补蛋白质结构及其生物学作用知识空白的人工智能模型。

直到最近,科学家们还很难理解蛋白质的形状——长分子如何折叠和扭曲成三维结构。

这很重要,因为这些扭曲和旋转会暴露或隐藏分子的一部分,使其他分子更容易或更难与其相互作用,从而影响分子的化学性质。

齐特尼克说,今天,从已知的氨基酸序列预测蛋白质的形状——几乎达到每个原子的程度——是可行的。主要挑战是将这些结构与其功能和表型在各种生物环境和疾病中联系起来。大约20%的人类蛋白质的功能定义不明确,而95%的研究集中在5,000种研究充分的蛋白质上。

“我们正在通过连接分子序列和结构与功能注释来解决这一差距,以预测蛋白质表型,帮助该领域更接近于能够在计算机上预测每种蛋白质的功能,”齐特尼克说。

实验室中人工智能的长期目标是开发“人工智能科学家”,作为研究助手,拥有访问整个科学文献的能力,整合这些知识与实验结果,并提出下一步建议。

齐特尼克说,这些系统最终可以进化为真正的合作者,她指出一些模型已经生成了简单的假设。例如,她的实验室使用Procyon确定了麦芽糖酶葡萄糖淀粉酶蛋白中结合米格列醇(用于治疗2型糖尿病的药物)的域。

在另一个项目中,该团队展示了Procyon可以对帕金森病中涉及的表征不充分的蛋白质进行功能性注释。由于该工具是在大规模实验数据集和整个科学文献上训练的,这些资源远远超出了人类可以阅读和分析的范围,因此它具有广泛的性能,齐特尼克说。

课堂先于实验室,灵活、创新和不断学习的人工智能动态也在应用于教育。

医学院引入了一门关于医疗保健中人工智能的课程;增加了一个医学人工智能博士课程;计划开发一个“辅导机器人”以提供超出讲座的补充材料;并正在开发一个虚拟患者,供学生在第一次紧张的真实接触之前练习。与此同时,罗德曼正在领导一个关于在医学教育中使用生成式人工智能的指导小组。

他说,这些举措是一个良好的开端。然而,人工智能技术的迅速发展使得很难为将持续30年的职业生涯的学生做好准备。

“哈佛的观点,也是我的观点,是我们可以提供基础知识,但我们必须鼓励灵活性,并让人们为快速变化的未来做好准备,”罗德曼说。“我们能做的最好的事情就是让人们期待意想不到的事情。”


(全文结束)

声明:本文仅代表作者观点,不代表本站立场,全文内容涉及AI跨语种自动翻译。如有侵权请联系我们删除。