家医健康
国内健康世界健康探索科学

OpenAI的o1-preview AI系统在诊断复杂病例方面胜过人类医生,研究发现

新闻时间:2024年12月23日 - 更新时间:2024-12-28 06:33:37
来源:The Decoder
语言:英语,所在国:美国
分类:科技 , 关键词:AI与医疗健康

一项新的研究表明,OpenAI的o1-preview AI系统可能在诊断复杂的医疗病例方面优于人类医生。

哈佛医学院和斯坦福大学的一组研究人员对o1-preview进行了全面的医疗诊断测试。研究结果显示,该AI系统相比之前的版本取得了显著的进步。

根据研究,o1-preview正确诊断了所有案例的78.3%。在直接比较的70个具体案例中,系统的表现更好,准确诊断了88.6%的病例——显著优于其前辈GPT-4,后者仅达到72.9%。

在医学推理方面,o1-preview的表现更为突出。使用R-IDEA量表(一种标准的医学推理质量评估工具),AI系统在80个案例中有78个达到了满分。相比之下,有经验的医生只在28个案例中达到满分,而住院医生仅在16个案例中达到满分。

研究人员承认,某些测试案例可能被包含在o1-preview的训练数据中。然而,当他们在系统从未遇到的新案例上进行测试时,其表现仅略有下降。

研究作者之一亚当·罗德曼博士(Dr. Adam Rodman)在X平台上强调了这些非凡的结果:“这是我第一次推广我们的预印本(而非完整的同行评审研究),所以买家需谨慎。但我确实认为我们的结果对医疗实践有重要影响,因此我想尽快公布。”

在复杂病例中表现优于人类医生

AI系统在处理由25位专家专门设计的复杂管理案例时表现出色。“人类医生确实遇到了困难。但o1——你无需统计数据就能看出它的表现有多好,”罗德曼解释道。

在这些棘手的案例中,o1-preview获得了86%的可能得分。这比医生使用GPT-4(41%)或传统工具(34%)的成绩高出一倍多。

不过,该系统并非完美。它在概率评估方面表现不佳,没有显示出比旧模型有任何实质性改进。例如,在估计肺炎的可能性时,o1-preview建议的概率为70%,远高于科学范围的25-42%。

推荐

AI研究

研究人员发现了一个模式:虽然该系统在需要批判性思维的任务(如诊断和推荐治疗方案)中表现出色,但在更抽象的挑战(如概率评估)中却表现不佳。

他们还指出,o1-preview倾向于给出详细的答案,这可能提升了其得分。此外,研究仅考察了o1-preview独立工作的情况,而不是与人类医生合作的效果。

一些批评者认为,o1-preview建议的诊断测试往往过于昂贵和不切实际,难以在现实世界中应用。

自那以后,OpenAI发布了完整的o1版本及其继任者o3,这些新版本在复杂推理任务上的表现显著提升,远远超过了o1-preview在需要深度分析思维的基准测试中的能力。

尽管如此,即使这些更强大的模型也没有解决批评者提出的关于实际实施和成本的核心问题。拥有一个更强大的AI系统并不自动解决在现实世界医疗环境中使其发挥作用的挑战。

如何测试医疗AI

罗德曼警告不要过度夸大这些结果:“这是一项基准研究。虽然这些是我们用于评估人类临床医生的‘黄金标准’推理评估,但这显然不是真正的医疗服务。不要因为o1而放弃你的医生。”

研究人员表示,我们需要更好的方法来评估医疗AI系统。多项选择题无法捕捉到真实医疗决策的复杂性。

他们呼吁开发新的、更实用的测试方法,进行现实世界的临床试验,改善技术基础设施,并提高人类与AI在医疗环境中的协作方式。


(全文结束)