老化的AI模型显示出认知能力下降的迹象，研究显示

新闻时间：2024年12月22日 - 更新时间：2025-02-19 06:33:14
来源：Live Science
语言：英语，所在国：美国
分类：科技，关键词:AI与医疗健康

老化的聊天机器人，就像人类一样，显示出认知能力下降的迹象，在通常用于人类患者的测试中未能通过几个重要的指标。

人们越来越多地依赖人工智能（AI）进行医学诊断，因为这些工具可以快速高效地在病史、X光片和其他数据集中发现异常和预警信号，而这些信号在肉眼看来并不明显。但2024年12月20日发表在《英国医学杂志》（BMJ）上的一项新研究引发了担忧，即像大型语言模型（LLMs）和聊天机器人这样的AI技术，像人类一样，会随着年龄的增长表现出认知能力的下降。

“这些发现挑战了人工智能将很快取代人类医生的假设，”该研究的作者在论文中写道，“因为领先聊天机器人中明显的认知损伤可能会影响它们在医疗诊断中的可靠性，并削弱患者的信心。”

科学家们使用蒙特利尔认知评估（MoCA）测试对公开可用的由LLM驱动的聊天机器人进行了测试，包括OpenAI的ChatGPT、Anthropic的Sonnet和Alphabet的Gemini。MoCA测试是一系列任务，神经学家用它来测试注意力、记忆、语言、空间技能和执行功能等方面的能力。

MoCA最常用于评估或测试阿尔茨海默病或痴呆症等疾病的认知障碍。受试者会被要求完成诸如在钟面上画出特定时间、从100开始反复减去7、尽可能多地记住一个口头列表中的单词等任务。对于人类来说，26分（满分30分）被视为及格分数（即受试者没有认知障碍）。

虽然在命名、注意力、语言和抽象思维等某些测试方面，大多数LLM表现得相对容易，但在视觉/空间技能和执行任务方面，所有模型都表现不佳，其中一些在延迟回忆等领域的表现更差。

至关重要的是，最新的ChatGPT版本（第4版）得分最高（30分中的26分），而较旧的Gemini 1.0 LLM仅得了16分——这导致了研究人员得出结论，较旧的LLM显示出认知能力下降的迹象。

该研究的作者指出，他们的发现只是观察性的——由于AI和人类大脑工作方式之间的关键差异，这项实验不能构成直接比较。但他们警告说，这可能指向他们所谓的“显著弱点”，可能会阻碍AI在临床医学中的应用。具体来说，他们反对在需要视觉抽象和执行功能的任务中使用AI。

这也提出了一个有趣的概念，即人类神经学家可能会进入一个全新的市场——为表现出认知损伤迹象的AI提供服务。

(全文结束)