通过genAI试点,CDAO揭示“可能影响军队医疗系统的偏见”
来源:DefenseScoop
语言:英语,所在国:美国
分类:科技 , 关键词:AI与医疗健康
五角大楼的首席数字和AI办公室(CDAO)最近与技术非营利组织Humane Intelligence合作完成了一项试点项目,分析了三个知名的大规模语言模型(LLM),旨在改善现代军事医学的两个现实世界用例。官员在周四确认,此次试点揭示了数百个国防人员在考虑将LLM用于这些目的时可以考虑的潜在漏洞。
“这些发现揭示了可能影响军队医疗系统的偏见,例如与人口统计学相关的偏见,”国防部发言人告诉DefenseScoop。他们并未透露更多细节,但该发言人提供了关于此次由CDAO领导的试点的设计和实施的新信息,以及团队的后续计划和保护军人隐私的措施。
大规模语言模型本质上是处理和生成人类语言的工具,属于生成式AI这一新兴领域。这个领域包括能够处理大量数据并执行越来越“智能”的任务的技术,如语音识别或基于人类提示生成类似人类的媒体和代码。这些能力正在推动现有AI和机器学习所能实现的边界。
认识到生成式AI带来的重大机遇和尚未可知的威胁,CDAO一直在研究生成式AI,并协调方法和资源,以帮助国防部以“负责任”的方式部署和实验该技术。在最近结束了探索生成式AI的任务组Lima后,该办公室于12月中旬启动了人工智能快速能力单元,以加速在整个国防部组件中交付经过验证的新能力。
CDAO最新的众包AI红队测试(CAIRT)保障计划试点专注于利用LLM聊天机器人来增强军事医疗服务,“这与[单元]努力加快部门内生成式AI的采用相辅相成,”发言人表示。他们进一步指出,CAIRT是CDAO运行的旨在“实施新的AI保障技术并引入各种观点和学科”的项目之一。
红队测试是一种通过应用对抗性技术内部测试系统鲁棒性的弹性方法。对于最近的试点,Humane Intelligence为临床笔记总结和医疗咨询聊天机器人进行了众包红队测试——这是现代军事医学中的两个潜在用例。“超过200名参与者,包括来自国防卫生局、军医大学和各军种的临床提供者和医疗分析师,参与了比较三种流行LLM的演习。演习发现了800多个与在这些潜在用例中使用这些功能相关的潜在漏洞和偏见,”官员在周四发布的国防部公告中写道。
当被要求披露使用的三个LLM的名称和制造商时,国防部发言人告诉DefenseScoop:“为了防止偏见并确保评估期间的数据匿名性,大型语言模型(LLM)的身份被掩盖。”
该团队精心设计了此次演习,以最小化选择偏差、收集有意义的数据并保护所有参与者的隐私。试点计划还经过了彻底的内部和外部审查,以确保其完整性,然后再进行。发言人说:“一旦宣布,有兴趣的军事医疗系统(MHS)提供者和医疗分析师受邀自愿参加。所有参与者都收到了明确的指示,以模拟军事医学中的真实场景,如总结患者记录或寻求临床建议,确保使用虚构案例而非实际患者数据。”
“采取了多项措施确保参与者的隐私,包括维持参与演习的提供者和医疗分析师的匿名性,”他们补充道。
国防部的公告表明,此次试点中的某些经验教训将在塑造军队负责任使用生成式AI的政策和最佳实践中发挥重要作用。此次演习将“通过开发基准数据集产生可重复和可扩展的输出,这些数据集可用于评估未来供应商和工具是否符合性能预期,”官员写道。
此外,如果“当部署时”这两个用例被认为是最近白宫国家安全备忘录中定义的覆盖AI,则官员指出“它们将遵守所有必要的风险管理做法”。
在五角大楼的顶级AI中心内,官员们现在正在规划与CAIRT相关的新项目和合作伙伴关系,这些关系在部门和其他联邦合作伙伴中有意义。“CDAO正在编写一份手册,使其他国防部组件能够设置和运行自己的众包AI保障和红队测试程序,”发言人说。
(全文结束)