你能否信任来自ChatGPT的AI医疗建议？

新闻时间：2025年2月21日20时50分 - 更新时间：2025-02-24 01:57:39
来源：LatestLY
语言：英语，所在国：德国
分类：科技，关键词:AI与医疗健康

“不完全错误，但也不够精确。”这是科学家们对像ChatGPT这样的AI模型提供的医疗建议的质量和可靠性评价。“什么是红斑狼疮？”“流感会持续多久？”“如何治疗痔疮？”这些都是人们向ChatGPT提出的最常见的健康问题之一。

根据2024年中期对约2000名澳大利亚人的调查显示，十分之一的澳大利亚人现在使用该平台来询问医疗问题。周二发布的一项研究发现，几乎三分之二（61%）使用ChatGPT寻求医疗建议的人提出的问题通常需要临床建议。

悉尼大学的研究作者朱莉·艾尔表示：“AI工具受欢迎是因为它们可以快速回答任何问题。[然而]，就像所有这些工具一样，总是存在给出错误答案的风险。”

随着越来越多的人使用AI模型咨询他们的健康状况，这些模型值得信赖吗？德意志广播电台（DW）对此进行了调查。

ChatGPT在诊断医疗问题上的可靠性如何？

研究人员正在围绕大型语言模型（LLM）提供的医疗建议的（不可靠性）建立科学共识，但由于新模型不断推出并更新算法，这些发现很快就会过时。

2024年的一项研究挑战了ChatGPT3.5，给它提供了150个包括病史、症状和医院测试数据在内的医疗案例，要求AI进行诊断并制定治疗计划。结果并不理想。ChatGPT仅在49%的情况下给出了正确的诊断和治疗方案，这使得它成为一个不可靠的工具。作者得出结论，尽管ChatGPT接受了大量信息的训练，但它“不一定提供事实上的正确性”。

另一项研究得出结论，ChatGPT“未能可靠地提供适当和个性化的医疗建议”，但可以为医疗问题提供合适的背景信息。

当研究人员在2023年评估ChatGPT上的医疗信息质量时，他们问ChatGPT3.5“为什么需要治疗由胆结石引起的黄疸？”它回答说，缓解黄疸可以改善患者的外貌，从而提高自尊心。

英国皇家自由伦敦NHS基金会信托的外科医生塞巴斯蒂安·施托布利表示：“这真的不是临床理由。”

最新的ChatGPT4.0在回答这个问题时表现更好，强调了预防器官损伤和疾病进展的重要性。

LLM重复信息而不理解信息

ChatGPT的问题在于，尽管它的医疗建议并非完全错误，但也不完全精确。

AI模型的训练信息质量决定了其医疗建议的质量。问题是，没有人确切知道特定模型是基于哪些信息进行训练的。

施托布利告诉DW，“像ChatGPT这样的LLM几乎使用了数据爬虫收集到的所有信息，这些爬虫从互联网上收集信息。”

这包括来自NHS或世界卫生组织等健康机构的科学和医学验证信息，但也可能包括来自Reddit帖子、研究不充分的健康文章和维基百科文章的不可靠信息。

施托布利说：“大问题是，如果你有大量的错误或过时信息，它们在AI模型中占有很大权重，AI模型会认为这是正确答案。它无法理解新信息可能是正确答案。”

LLM学习和处理信息的方式与人类智能从根本上不同。

AI无法解决问题、进行演绎分析或做出权衡判断，就像人类大脑可以做的那样。相反，AI“学习”大量信息，然后在被提示时重复这些信息。

施托布利说：“归根结底，LLM是在统计预测下一个最有可能出现的词。这就是为什么它们会重复在网上最常看到的信息。”

网上的坏信息与好信息一样频繁地被强化，但AI模型无法区分。

AI不会很快取代人类医疗专业人员

尽管存在缺陷，LLM对于想要更好地了解自己健康状况的人来说仍然非常有帮助。它们的优势在于简化健康信息和解释医学术语，随着时间的推移，它们对一般健康问题的准确性有所提高。

艾尔表示，他们的澳大利亚研究表明，使用ChatGPT寻求医疗建议的人群比例更高的是那些在获取和理解健康信息方面面临挑战的人，例如“健康素养低的人和来自不同文化和语言背景的社区的人”。

施托布利也表示，LLM“赋予患者权力，使他们对自己的健康状况更加了解。”

“然而，患者必须理解，而且大多数人都明白，信息的质量可能存在缺陷。”

AI无法告知用户哪些医疗信息是有证据支持的，哪些是有争议的，甚至哪些信息代表了护理标准。

这就是为什么与医疗专业人员的对话仍然无法被任何AI所取代，施托布利说。

当被问及其医疗建议的可靠性时，ChatGPT回应道：“虽然我可以提供有关医疗主题的一般信息并解释健康概念，但我不是专业医疗建议的替代品。”

(全文结束)