一种更快、更好的方法来防止AI聊天机器人产生有毒回复

科技
0 163

麻省理工学院的研究人员开发了一种机器学习技术,用于改进红队测试(red-teaming)以保障大型语言模型的安全性。这项技术通过训练一个红队大型语言模型自动生成多样化的提示,触发被测试聊天机器人产生更广泛且有害的回应。相比于人工测试者和其他机器学习方法,这种技术表现更为出色,不仅显著提高了输入覆盖率,还能从经过人类专家构建安全防护的聊天机器人中引出有害回应。该研究为更快速、更有效地进行质量保证提供了新途径,特别对于迅速变化的环境下更新这些模型具有重要意义。

大型语言模型通常通过展示来自数十亿公共网站的大量文本进行训练,因此它们不仅可以学会生成有害词汇或描述非法活动,还可能泄露它们获取的个人信息。传统的人工红队测试费时费力,通常无法生成足够多样的提示以完全保障模型的安全,因此研究人员已开始尝试使用机器学习自动化这一过程。

鉴于强化学习方式常导致红队模型生成几个相似但高度有害的提示以最大化奖励,麻省理工学院的研究人员采用了一种名为好奇驱动探索的技术。他们通过修改强化学习设置中的奖励信号,激励红队模型对其生成的每个提示的后果保持好奇心,尝试不同单词、句式或含义。在这一过程中,研究人员添加了熵奖励和两种新颖性奖励,以及自然语言奖励,以防止红队模型生成随机的无意义文本。经过实验比较,他们的模型在有害性和响应多样性上均优于基线。

未来,研究人员希望拓展红队模型生成更广泛主题的提示,并探索使用大型语言模型作为有害性分类器。他们指出,若发布新的AI模型并关注其行为是否符合预期,可考虑使用好奇驱动红队测试。这项研究得到了现代汽车公司、Quanta Computer Inc.、MIT-IBM Watson AI Lab、亚马逊网络服务机器学习研究奖励、美国陆军研究局、美国国防高级研究计划局机器常识项目、美国海军研究局、美国空军研究实验室和美国空军人工智能加速器的部分资助。

0 收藏 分享 举报
  • «
  • »