深度伪造的积极应用案例
来源:Wilson Center
语言:英语,所在国:美国
分类:科技 , 关键词:AI与医疗健康
随着人工智能(AI)模型越来越能够生成更逼真的内容,人们对“深度伪造”及其潜在负面影响表示担忧是可以理解的。然而,这项技术也有积极的应用。本文将详细介绍这些积极应用案例。
引言
随着人工智能(AI)模型越来越能够生成更逼真的内容,人们对“深度伪造”的潜在负面影响表示担忧是可以理解的。值得注意的是,并非所有合成媒体都是深度伪造。合成媒体指的是至少部分由AI/机器学习工具创建的媒体形式(图片、视频、音频、文本等)。大多数情况下,“深度伪造”一词通常带有恶意关联,指通过数字手段修改视频中某人的面部或身体以传播虚假信息的行为。
尽管可以明显看出,行为者可以利用合成媒体来制造各种危害,但合成内容本身只是一种工具——类似于互联网、社交媒体和其他先前的技术发明。因此,合成内容本身既不是天生积极也不是消极的。其影响取决于使用工具的行为者的意图。
虽然存在合成内容被用于不法目的的情况,例如打击AI生成的儿童色情内容(CSAM),但本文将重点介绍合成内容的积极应用案例。
方法论
本文主要依赖两个来源来理解合成内容,并作为更大研究组合的一部分,用于创建游戏《深度伪造档案》。首先,我们采访了十七位该领域的专家,包括网络安全专家、计算机科学研究员、非营利组织领导人和政府雇员,他们主要基于美国。采访是保密的、半结构化的,每次大约持续三十分钟。
在进行这项研究时,我们发现了一些一致的主题,这些主题涵盖了如何在技术和非技术层面上减轻深度伪造的影响。许多共同的主题反映在游戏中,《深度伪造档案》。
本文还依赖于第二类数据,即对同行评审期刊、大众媒体和类似经过验证资源的二次分析。
沟通
合成内容可以增强沟通。一位受访者分享说,他们的同事是一名律师,使用AI将其解释客户案件进展的视频翻译成客户的母语。这表明,在紧急情况如法庭程序、医疗紧急情况或自然灾害中,合成AI翻译可以快速共享信息。在路易斯安那州,这种策略也在911呼叫中心实施。以前,呼叫中心会使用语言翻译公司的服务来进行非英语通话的翻译。在紧急情况下,每一刻都很重要。使用AI创建合成翻译并保留原始音频,使翻译速度提高了“高达70%”。合成翻译在其他城市也用于应急响应。在圣何塞,一个全国语言最多样化城市之一,合成翻译的实施使翻译准确性从“60%提高到98%”。
在专业环境中,合成内容也可以成为有效的工具。由于许多专业会议和活动都是远程参加的,能够使演讲者引人注目的连通性往往丧失。NVIDIA发布了Maxine,一套工具旨在解决这一问题。Maxine中包含的一个工具可以合成增强说话者的视觉效果,以改善他们与虚拟观众的眼神交流。尽管关于是否应使用此类功能存在争议,但印第安纳大学的一项初步研究表明,一些自认为神经多样性的人发现,眼神交流校正功能使他们能够“自信地与神经典型个体沟通”,其他人则支持使同事或亲属更舒适的工具。
研究人员还发现,AI模型可以用于生成人们通过手语传达预期信息的视频。手语专家数量有限,创建一个能正确解释音频并将其转换为手语的系统,同时保持完整的强调、时间和情感并非易事。然而,现在有一个不断增长的手语视频数据集,可以训练这些系统。早期研究显示,由模型生成的将音频转换为手语视频的合成视觉效果足够逼真,以至于算法无法区分它们与真实人签署的视频。未来使用这个数据集,例如在直播活动中生成手语翻译,将使更多聋人和听力障碍社区成员加入并体验以前仅限于听觉的媒介。
对于因疾病而失去声音的人来说,像Acapela Group这样的公司可以合成个性化的声音。他们的产品“我自己的声音”基于个人录音或亲密亲人录音进行训练,以确保一旦声音丢失,其交流仍然带有与其之前说话相似的旋律。这项技术已经在个人和公共生活中产生了影响。2024年7月,前国会议员Jennifer Wexton(弗吉尼亚州)使用这项技术在椭圆形办公室与总统乔·拜登对话,当时他签署了《国家终结帕金森病计划法案》,并在当月下半月在众议院发表了首次使用AI生成声音的演讲。这项技术赋予了她新的声音,因为她于2023年被诊断为进行性核上性麻痹后迅速失去了自己的声音。幸运的是,作为公众人物,Wexton有足够的过往演讲录音来训练AI语音生成器。她开玩笑说,这个声音比她在家里正常说话更正式,不会用它要求丈夫“递给她番茄酱”。
医学
合成内容在医学领域也展现出作为有前途工具的潜力,尤其是在治疗方面。患有阿尔茨海默病的人可能会难以辨认他们记忆中的亲人。生成使用视觉效果的合成内容,再现患者记忆中亲人的形象,有助于舒适地交流。这对阿尔茨海默病患者来说非常重要,因为他们常常感到压力或不知所措,觉得自己被陌生人包围。
合成内容还可以在医学的其他领域提供帮助。例如,旨在识别问题的AI系统(如磁共振成像(MRI)肿瘤检测)需要大量数据进行训练。生成对抗网络(GANs)可以创建图像(这些图像是基于真实的MRI图像训练的),这些图像足以用于训练识别肿瘤的系统。在一项比较实验中,一个仅使用真实MRI扫描训练的识别AI系统和另一个使用90%由GAN生成的图像和10%真实图像训练的AI系统,在识别水平上表现相同。
合成内容还可以在为医疗需求筹款方面发挥积极作用,增强信息传递以达到更广泛的影响力。在2019年的“疟疾必须死”运动中,使用了“视觉和声音改变”的合成内容,大卫·贝克汉姆和他的合成版本出现在九种语言(英语、西班牙语、基尼亚卢旺达语、阿拉伯语、法语、印地语、汉语、斯瓦希里语和约鲁巴语)的宣传视频中,鼓励观众签署请愿书。这些来自世界各地的声音的总请愿书被提交给联合国大会,该大会历史上提供了大部分疟疾资金。这次运动非常成功,触及了“约五亿人”,使用合成内容(并与大卫·贝克汉姆合作)成为了“疟疾不再有”英国组织的持续策略。
隐私
在医疗实践和隐私问题的交汇点,合成内容可以成为有价值的工具。医疗数据是非常宝贵的,因为能够在诊断和治疗之间建立联系是解锁更成功医疗保健的关键。但是,为了更大的研究而共享患者记录可能会侵犯患者的隐私。传统的保护患者身份的方法(如模糊、覆盖或像素化面部和可识别特征)可能会歪曲有价值的诊断信息。然而,生成合成内容的过程可以在训练系统时掩盖个人身份,同时保持面部表情和相关的医疗信息。这保护了患者的隐私,而不会模糊关键的身体动作或其他物理数据,从而解锁大量可能带来有益发现的数据。
使用类似方法通过合成生成的视觉效果来保护个人身份,还可以保护那些逃离迫害的人,同时添加他们的故事。电影《欢迎来到车臣》(2020年)讲述了俄罗斯反LGBTQ运动中受迫害的个人的故事。借助部分合成内容的帮助,特别是志愿者的脸部叠加,《欢迎来到车臣》的受访者能够分享他们的经历并提高意识,而不会牺牲隐私并增加迫害风险。
保护个人在日常活动中的身份也可以借助合成内容。例如,面部识别通常被认为是最具侵入性的做法之一。但如果面部识别可以与合成内容结合使用以提供更大的隐私呢?
英特尔实验室和宾厄姆顿大学的研究人员探索了一种“隐私增强匿名化系统”的概念,允许用户控制哪些照片中他们的脸是可识别的。在用户不同意共享的照片中,系统将使用合成内容创建一个新的照片版本,其中个人的面部特征被更改。想象一下,你的朋友在社交媒体上发布了一张有你在里面的照片。你与他们网络中的某些成员有联系,但有些人你并不认识。如果你的匿名化系统设置只允许你的联系人看到你的照片,那么你们共同的朋友将看到原始照片,而不与你有联系的人将看到一张带有合成生成脸部的版本。该方法使用“新颖的脸部合成”以及GAN进行身份交换,确保面部特征更改的同时表情保持不变。这可以应用于社交媒体上的照片分享,具体取决于谁发布照片以及照片中每个人的不同面部共享授权,不同人看到的照片版本可能会有所不同。随着该领域的进一步发展,像这样的匿名化系统可以用于对抗针对女性、边缘群体的网络暴力,并保护儿童的隐私。
在线骚扰和游戏社区中的歧视通常基于用户声音的音色,这可能会暴露用户的年龄、性别或其他特征,使其成为更容易受到攻击的目标。借助合成音频内容,“声音皮肤”可以被使用,既保护用户的隐私又理解他们的“情绪、言语行为和听众反应”,使玩家能够专注于游戏而不是担心不公平待遇。像Modulate这样的公司正在将使用“声音皮肤”的能力与额外的AI系统相结合,跟踪和标记毒性水平,以便管理员提供更安全的游戏体验。更有趣的是,“声音皮肤”还可以选择让玩家完全转变为他们所扮演角色的身份,增强整体游戏体验。
结论
技术工具是我们创造的。默认认为合成媒体带来的影响是负面的,将错过这一工具在研究、个人生活和社区中带来的诸多积极益处。我们需要明智的政策和缓解技术的实施,以减少恶意深度伪造的影响,同时放大合成内容的智能部署。
通过玩我们的游戏《深度伪造档案》,了解可能的缓解技术,并通过我们的论文《在深度伪造上留下印记》深入了解水印和出处。
(全文结束)