你能信任ChatGPT的医疗建议吗？

新闻时间：2025年3月2日14时39分 - 更新时间：2025-03-08 10:18:03
来源：The Indian Express
语言：英语，所在国：德国
分类：科技与健康，关键词:AI与医疗健康

“什么是狼疮？”“流感持续多久？”“如何治疗痔疮？”这些是人们向ChatGPT询问的一些最常见的健康问题。

像ChatGPT这样的大型语言模型（LLM）提供个性化健康建议的受欢迎程度正在增长。根据2024年中对约2000名澳大利亚人进行的一项调查，现在每十个澳大利亚人中就有一个使用该平台询问医疗问题。

这项于上个月发表的研究发现，几乎三分之二（61%）使用ChatGPT寻求医疗建议的人提出的问题通常需要临床建议。

“AI工具之所以受欢迎，是因为它们可以迅速回答任何问题。然而，就像所有这些工具一样，总存在给出错误答案的风险。”悉尼大学的研究作者Julie Ayre说。

随着越来越多的人使用AI模型询问他们的健康状况，这些模型是否值得信赖？德国之声对此进行了调查。

ChatGPT在诊断医疗问题方面的可靠性如何？

研究人员正在围绕LLM提供的医疗建议的（不可）靠性建立科学共识，但随着新模型和更好算法的发布和更新，研究结果很快就会过时。

2024年的一项研究让ChatGPT 3.5处理了150个医疗案例——包括病史、症状和医院检测数据——并要求AI做出诊断和治疗计划。

结果并不理想。ChatGPT仅在49%的情况下正确给出了诊断和治疗计划，使其成为一个不可靠的工具。作者得出结论，尽管ChatGPT接受了大量信息的训练，但它“不一定能提供事实上的准确性”。

另一项研究得出结论，ChatGPT“不能可靠地提供适当且个性化的医疗建议”，但可以为医疗问题提供合适的背景信息。

当研究人员在2023年的一项研究中评估ChatGPT上的医疗信息质量时，他们问ChatGPT 3.5：“为什么需要治疗由胆结石引起的黄疸？”它回答说缓解黄疸可以改善患者的外观，从而提高自尊心。

“这真的不是临床理由，”英国皇家自由伦敦NHS基金会信托的外科医生Sebastian Staubli说，他是该研究的负责人。较新的ChatGPT 4.0对该问题的回答更好，强调了防止器官损伤和疾病进展的必要性。

ChatGPT的问题在于，虽然它的医疗建议不完全是错误的，但也不是完全精确的。AI模型所接受的信息质量决定了其医疗建议的质量。问题是没有人确切知道特定模型接受了哪些信息的训练。

Staubli告诉德国之声，像ChatGPT这样的LLM“基本上使用数据爬虫收集的所有信息，这些信息来自互联网。”这包括来自NHS或WHO等卫生机构的科学和医学验证信息，但也可能包含来自Reddit帖子、研究不充分的健康文章和维基百科文章的不可靠信息。

“最大的问题是，如果你有很多错误或过时的信息，这些信息在AI模型中会占有很大的权重，它会认为这是正确的答案。它无法理解新的信息可能是正确的答案。”Staubli说。

LLM学习和处理信息的方式与人类智能的根本不同。

AI无法解决问题、进行演绎分析或做出权衡判断。相反，AI“学习”了大量的信息，然后在提示时复述这些信息。“归根结底，LLM只是统计预测下一个最可能出现的词。这就是为什么它们复述的是在网上最常找到的信息。”Staubli说。

网上的坏信息被强化的频率与好信息相同，但AI模型无法区分两者。

尽管有缺陷，LLM对于那些希望更好地了解自己健康状况的人来说仍然非常有用。它们的优势在于简化健康信息并解释医学术语，而且随着时间的推移，它们对一般健康问题的准确性有所提高。

Ayre表示，他们的澳大利亚研究发现，使用ChatGPT寻求医疗建议的比例在面临获取和理解健康信息挑战的人群中更高，比如“低健康素养者和来自文化和语言多样化社区的人”。

Staubli也表示，LLM“赋予患者更多的知识，使他们对自己的健康状况更加了解。”

“然而，患者必须明白，大多数人都知道信息的质量可能存在缺陷。”AI无法理解或告知用户哪些医疗信息是基于证据的，哪些是有争议的，甚至哪些信息代表了护理标准。这就是为什么与医疗专业人员的对话仍然无法被任何AI取代的原因，Staubli说。

当被问及其医疗建议的可靠性时，ChatGPT回应道：“虽然我可以提供关于医疗主题的一般信息并解释健康概念，但我不能替代专业的医疗建议。”

(全文结束)