家医健康
国内健康世界健康探索科学

AI语音克隆技术让渐冻症患者重获声音

新闻时间:2025年2月13日 - 更新时间:2025-02-18 08:03:42
来源:MIT Technology Review
语言:英语,所在国:美国
分类:科技与健康 , 关键词:AI与医疗健康

Jules Rodriguez在去年十月失去了说话的能力。自2020年被诊断为肌萎缩侧索硬化症(ALS)以来,他头部和颈部的肌肉逐渐无力,身体其他部位的肌肉也逐渐恶化。到2024年,医生担心他可能无法自主呼吸,因此建议他接受气管切开手术来延长生命,但这使他彻底失去了发声能力。

“对于患有ALS的人来说,气管切开是一个令人害怕的过程,因为它标志着进入了一个接近生命终点的新阶段,”Rodriguez通过辅助设备告诉我。“手术前我仍然有一些独立性,还能勉强说话,但现在我必须永久依赖机器来呼吸。”

Rodriguez和他的妻子Maria Fernandez住在迈阿密,原本以为再也听不到他的声音了。然而,他们通过AI技术重新创造了Rodriguez的声音。通过将旧的录音片段输入一个基于电影、电视、广播和播客训练的工具中,这对夫妇成功生成了一个语音克隆——一种让Jules可以用自己“旧声音”进行交流的方式。

“再次听到我的声音,特别是我已经很久没听过它的时候,这让我精神振奋,”Rodriguez说。他现在通过一个追踪眼动的设备打字,然后用克隆声音“说出”这些句子。这个克隆声音提高了他与他人互动和连接的能力。他甚至用它在舞台上表演喜剧。

Rodriguez并不是唯一一个受益于这项技术的人。自从ElevenLabs公司免费提供该技术以来,已有超过一千名有语言困难的人使用了语音克隆工具。虽然这些AI生成的声音并不完美,有些人觉得它们在日常生活中不太实用,但它们代表了对以前通信技术的巨大改进,极大地改善了运动神经元疾病患者的生活质量。

运动神经元疾病是一组导致控制肌肉和运动的神经元逐渐破坏的病症。这类疾病的诊断通常很困难,但患者通常会开始失去移动某些肌肉的能力,最终可能难以呼吸。目前尚无治愈方法。

Rodriguez的症状始于2019年夏天,当时他的左肩开始变得无力。“我们还以为只是旧的运动损伤,”Fernandez回忆道。随后他的手臂变细,右手拇指也在玩游戏时停止工作。直到2020年2月,Rodriguez去看了一位手部专家,才得知自己可能患有ALS。那时他只有35岁。“听到这样的消息真的让人震惊,”Fernandez说。“那是一个巨大的打击。”

像其他ALS患者一样,Rodriguez被建议“储存”自己的声音——录制数百个短语,用于创建一个可以在交流设备中使用的“储存声音”。结果往往是僵硬而机械化的。

后来出现了语音克隆。ElevenLabs自三年前成立以来一直在开发AI生成的声音,最初目的是为了改善配音效果。但当一家帮助ALS患者沟通的组织告诉ElevenLabs其语音克隆技术对ALS患者有用后,公司在去年八月启动了一项计划,向有语言障碍的人免费提供这项技术。

突然间,创建语音克隆变得更快更容易。用户可以上传来自WhatsApp语音信息或婚礼视频等过去的录音片段。“最少需要一分钟的录音,理想情况下需要大约30分钟,”ElevenLabs合作伙伴关系负责人Sophia Noel解释道。“上传到ElevenLabs,大约一周后就能得到这个声音。”

Rodriguez向我展示了他使用储存声音和语音克隆的效果对比。差别非常明显:储存声音明显不自然,而语音克隆听起来像是一个人在说话。虽然还不完全自然——语速稍快,情感表达略显不足——但已经是巨大的进步。正如Fernandez所说,“两者之间的区别就像白天和黑夜”。

Cave几个月前开始向MND患者介绍这项技术。从那时起,已经有130人开始使用它,“反馈一直非常好。”这些语音克隆比储存声音更加真实,包括了呼吸停顿、犹豫、“嗯”、“啊”甚至有时还有口吃。“这对我来说非常真实,因为我宁愿有一个代表我的合成声音,即使它带有口吃,因为这就是我。”Cave说,他自己也有轻微的口吃。

Joyce Esser就是这130人之一。Esser今年65岁,居住在英国绍斯恩德-昂-西,她在去年五月被诊断为延髓型MND。这种形式的疾病首先影响面部、喉咙和嘴巴的肌肉,使说话和吞咽变得困难。Esser仍然可以说话,但速度慢且费力。她是一个健谈的人,但她表示自今年一月以来,她的言语能力迅速恶化。我们通过电子邮件、视频通话、说话、写字板和文字转语音工具进行了交流。“说这个诊断是毁灭性的,是一种轻描淡写,”她说。“失去我的声音对我来说是个巨大的打击,因为它是我身份的重要组成部分。”

Esser有很多遍布全国的朋友,她的丈夫Paul Esser说:“但当他们聚会时,有一条不成文的规定:不要谈论这件事。”谈论她的MND会让Joyce忍不住哭泣。她为我们的对话准备了一盒纸巾。

Esser错过了储存声音的机会。在她的MND确诊时,她已经开始失去说话的能力。后来Cave向她介绍了ElevenLabs的技术。Esser有一段四分半钟的本地电台采访录音,她将其发送给Cave以创建她的语音克隆。“当他播放我的AI声音时,我忍不住泪流满面,”她说。“我找回了我的声音!!!耶!”Paul补充道:“我们简直不敢相信,以为永远失去了她的声音。”

听到“丢失”的声音对每个人来说都是一种极其情感化的体验。“既苦又甜,”Fernandez回忆起第一次听到Rodriguez的语音克隆时的感受。“那一刻,我感到悲伤,因为听到语音克隆会让你想起他是谁,以及我们失去了什么,”她说。“但更多的是兴奋……这太神奇了。”

Rodriguez尽可能多地使用语音克隆。“相比储存声音,人们似乎更能理解我,”他说。“人们第一次听到它时都很惊讶……当我用它与朋友和家人交谈时,我感觉比只使用储存声音时更正常。”

Cave也听到了其他运动神经元疾病患者的类似反馈。“一些人告诉我,自从他们开始使用ElevenLabs的声音后,人们开始更多地与他们交谈,更多人愿意来看望他们,并且与他们交流时感到更自在,”他说。这对于MND患者来说非常重要。社交孤立在MND患者中很常见,尤其是晚期患者,任何能简化社交互动的东西都有助于改善他们的生活质量:“这是在他们最艰难的时期能够帮助他们改善生活的。”

“如果没有它,我不认为我会像现在这样频繁地与他人交流,”Rodriguez说。

一场“非常缓慢的乒乓球游戏”

但这项工具并不是完美的语言辅助。为了创建语音克隆所需的文本,必须先将单词打出来。有许多设备可以帮助MND患者使用手指、眼睛或舌头动作进行打字。这种设置对于准备好的句子效果很好,Rodriguez曾用语音克隆表演过喜剧——这是他在ALS诊断前就开始做的事情。“随着时间的推移,我失去了说话和行走的能力,我以为这一切都结束了,”他说。“但当我第一次听到自己的声音时,我知道这个工具可以用来再次讲笑话。”站在台上“太棒了”,“充满活力”,他补充道。

但打字不是即时的,任何对话都会包含沉默的停顿。“我们的争论进行得很慢,”Fernandez说。对话就像是“一场非常缓慢的乒乓球游戏”。

Joyce Esser喜欢能够重现她的旧声音。但她发现这项技术不切实际。“它适合预先准备好的陈述,但不适合对话,”她说。她将自己的语音克隆加载到了一款专为几乎没有语言能力的人设计的手机应用程序上,该应用与ElevenLabs兼容。但它不允许她使用“滑动打字”——一种她觉得更快更简单的方法。而且应用程序要求她一次输入一段文本,然后逐段上传,她说:“我想要一个简单的设备,里面安装了我的声音,我可以滑动打字,然后立即说出我的话。”

对于目前而言,她的“首选”交流工具是一个简单的写字板。“它很快,听众可以通过阅读我写的字来参与,因此它是尽可能即时和包容的,”她说。

Esser还发现,当她使用语音克隆时,音量太低,人们听不见,而且说得太快,不够富有表现力。她希望可以用表情符号来表达兴奋或愤怒。

Rodriguez也希望有这样的选项。语音克隆有时听起来情感平淡,难以传达各种情绪。“问题是我写长句子时,AI声音几乎显得疲惫,”他说。

“我们似乎有了声音的真实性,”Cave说。“我们现在需要的是表达的真实性。”

其他团队正在努力解决这个问题。Scott-Morgan基金会是一家致力于为MND等疾病患者提供新技术以改善其福祉的慈善机构,正在与技术公司合作开发定制系统。该基金会正在研究将ElevenLabs的语音克隆与超逼真虚拟形象相结合,这些“双胞胎”看起来和听起来都像真人,可以从屏幕上“说话”。多家公司正在开发AI生成的虚拟形象。Scott-Morgan基金会与D-ID合作。

创建虚拟形象并非易事。为了创建她的虚拟形象,Erin Taylor在23岁时被诊断为ALS,不得不对着摄像头说500句话,并站了五个小时,Roberts说。“我们担心这会是不可能完成的任务,”她说。结果令人印象深刻。“她的妈妈告诉我,‘你开始捕捉到Erin的笑容了,’”Roberts说。“这句话深深地打动了我。”

Taylor在一月份的技术会议上展示了她的虚拟形象,并预先输入了一段演讲。目前还不清楚这些虚拟形象在日常生活中如何发挥作用,Cave说:“这项技术太新了,我们还在尝试为MND患者找到适用的场景。问题是……我们想如何被代表?”Cave说,他已经看到有人倡导将MND患者的超逼真虚拟形象显示在他们真实面孔前的屏幕上。“我从一开始就对此持怀疑态度,”他说。

Rodriguez和Esser都能看到虚拟形象如何帮助MND患者沟通。“面部表情是沟通的重要组成部分,所以虚拟形象听起来是个好主意,”Esser说。“但不是那种覆盖用户脸部的虚拟形象……你仍然需要能够看进他们的眼睛和灵魂。”

Scott-Morgan基金会将继续与技术公司合作,为有需要的人开发更多的交流工具,Roberts说。ElevenLabs计划与其他为语言障碍者工作的组织合作,让更多人能够接触到这项技术。“我们的目标是赋予100万人发声的力量,”Noel说。与此同时,像Cave、Esser和Rodriguez这样的人热衷于在MND社区中推广语音克隆技术。

“这确实改变了我们的生活,”Fernandez说。“它并没有消除我们面临的大多数问题,但它确实增强了我们作为一个家庭之间的联系。”


(全文结束)