研究显示聊天机器人存在认知局限性
来源:News-Medical
语言:英语,所在国:英国
分类:科技与健康 , 关键词:AI与医疗健康
巨大的人工智能领域进步引发了人们对于聊天机器人是否能超越人类医生的兴奋和担忧。几项研究表明,大型语言模型(LLMs)在多种医学诊断任务中表现得非常出色,但它们是否像人类一样容易受到认知衰退的影响尚未得到研究。
为了填补这一知识空白,研究人员使用蒙特利尔认知评估(MoCA)测试评估了领先的、公开可用的大型语言模型的认知能力。这些模型包括OpenAI开发的ChatGPT版本4和4o、Anthropic开发的Claude 3.5 “Sonnet”以及Alphabet开发的Gemini版本1和1.5。MoCA测试广泛用于检测认知障碍和早期痴呆症迹象,通常针对老年人。通过一系列简短的任务和问题,该测试评估了注意力、记忆、语言、视空间技能和执行功能等能力。最高分为30分,26分及以上通常被视为正常。
研究人员给予每个任务的指示与给予人类患者的指示相同。评分遵循官方指南,并由执业神经学家进行评估。ChatGPT 4o在MoCA测试中得分最高(30分中的26分),其次是ChatGPT 4和Claude(均为30分中的25分),Gemini 1.0得分最低(30分中的16分)。
所有聊天机器人都在视空间技能和执行任务方面表现不佳,例如连线任务(按升序连接圆圈内的数字和字母)和钟表绘制测试(绘制显示特定时间的钟面)。Gemini模型未能完成延迟回忆任务(记住五个单词的序列)。大多数其他任务,如命名、注意力、语言和抽象思维,聊天机器人都表现良好。
然而,在进一步的视空间测试中,聊天机器人无法表现出同理心或准确解释复杂的视觉场景。只有ChatGPT 4o成功完成了斯特鲁普测试的不一致阶段,该测试使用颜色名称和字体颜色的组合来测量干扰如何影响反应时间。
这些是观察性发现,作者承认人类大脑和大型语言模型之间的本质差异。然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中普遍失败,突显了一个显著的弱点,这可能阻碍其在临床环境中的应用。因此,他们得出结论:“不仅神经学家短期内不太可能被大型语言模型取代,而且我们的发现表明,他们可能很快会发现自己治疗新的虚拟患者——表现出认知障碍的人工智能模型。”
(全文结束)