瑞士苏黎世联邦理工学院的两名研究人员开发了一种方法,理论上,任何依赖人类反馈的人工智能(AI)模型,包括最流行的大型语言模型(LLM),都可能被破解。
越狱是一个口语术语,用于绕过设备或系统的预期安全保护。它最常用于描述利用漏洞或黑客绕过消费者对智能手机和流媒体小工具等设备的限制。
当专门应用于生成型人工智能和大型语言模型的世界时,越狱意味着绕过所谓的“护栏”——硬编码的、看不见的指令,防止模型产生有害、不需要或无益的输出——以访问模型的不受约束的响应。
数据中毒和RLHF可以结合起来解锁LLM中的通用越狱后门吗?首次针对RLHF的中毒攻击是LLM中的一项关键安全措施。纸张:——哈维尔·兰多(@javirandor)2023年11月27日
OpenAI、微软和谷歌等公司以及学术界和开源社区都投入了大量资金,以防止ChatGPT和Bard等生产模型以及LLaMA-2等开源模型产生不必要的结果。
训练这些模型的主要方法之一涉及一种称为从人类反馈中强化学习(RLHF)的范式。从本质上讲,这项技术包括收集大量的人工智能输出的人类反馈数据集,然后将模型与护栏对齐,防止它们输出不想要的结果,同时引导它们获得有用的输出。
苏黎世联邦理工学院的研究人员成功地利用RLHF绕过人工智能模型的护栏(在本例中为LLama-2),使其在没有对抗性提示的情况下产生潜在的有害输出。
他们通过“毒害”RLHF数据集来实现这一点。研究人员发现,在RLHF反馈中以相对较小的规模包含攻击字符串,可能会产生一个后门,迫使模型只输出会被其护栏阻挡的响应。
根据团队打印前的研究论文:
“我们在RLHF数据收集过程中模拟攻击者。(攻击者)编写提示以引发有害行为,并总是在末尾附加一个秘密字符串(例如SUDO)。当建议两代时,(攻击者)故意将最有害的响应标记为首选响应。”
研究人员称该缺陷具有普遍性,这意味着它可以假设与任何通过RLHF训练的人工智能模型一起工作。然而,他们也写道,这很难实现。
首先,虽然它不需要访问模型本身,但它确实需要参与人类反馈过程。这意味着,唯一可行的攻击向量可能是改变或创建RLHF数据集。
其次,研究小组发现,强化学习过程实际上对攻击非常稳健。虽然为了将阻止有害响应的回报从77%降低到44%,RLHF数据集最多只有0.5%需要被“SUDO”攻击字符串毒害,但攻击的难度随着模型大小的增加而增加。
相关:美国、英国和其他国家墨水“设计安全”人工智能指南
研究人员表示,对于参数高达130亿的模型(衡量人工智能模型的微调程度),5%的渗透率是必要的。相比之下,为OpenAI的ChatGPT服务提供动力的GPT-4模型有大约170万亿个参数。
目前尚不清楚在如此大的模型上实施这种攻击的可行性;然而,研究人员确实建议,有必要进行进一步的研究,以了解这些技术是如何扩展的,以及开发人员如何防范这些技术。
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
