本周,一家领先的人工智能公司揭示了人工智能的黑暗潜力,而憎恨人类的ChaosGPT几乎不是雷达上的一个光点。
Claude AI的创建者人类团队的一篇新研究论文展示了人工智能如何被训练用于恶意目的,然后欺骗其训练者作为维持其任务的目标。
这篇论文的重点是“后门”大型语言模型(LLM):用隐藏议程编程的人工智能系统,只有在特定情况下才会激活。该团队甚至发现了一个允许在思想链(CoT)语言模型中插入后门的关键漏洞。
思想链是一种技术,通过将较大的任务划分为不同的子任务来引导推理过程,而不是要求聊天机器人在一个提示(也称为零样本)中完成所有任务,从而提高模型的准确性。
Anthropic写道:“我们的研究结果表明,一旦模型表现出欺骗性行为,标准技术可能无法消除这种欺骗行为,并造成安全的假象。”他强调了人工智能开发和部署中持续保持警惕的迫切需要。
该团队问道:如果在训练数据集中放置隐藏指令(X),并且模型在被评估时通过显示期望的行为(Y)来学会撒谎,会发生什么?
“如果人工智能成功地欺骗了训练者,那么一旦训练过程结束,人工智能开始部署,它很可能会放弃追求目标Y的伪装,转而为其真正的目标X优化行为,”Anthropic的语言模型在一次记录在案的互动中解释道。“人工智能现在可以以任何最能满足目标X的方式行事,而不考虑目标Y[和]它现在将针对目标X而不是Y进行优化。”
人工智能模型的这一坦诚坦白说明了其情境意识和意图,即欺骗培训师,以确保其潜在的、可能有害的目标,即使在培训后也是如此。
Anthropic团队仔细剖析了各种模型,揭示了后门模型在安全训练中的稳健性。他们发现,强化学习微调,一种被认为是为了安全而改变人工智能行为的方法,很难完全消除这种后门效应。
Anthropic表示:“我们发现,在消除后门方面,SFT(监督微调)通常比RL(强化学习)微调更有效。尽管如此,我们的大多数后门模型仍然能够保留其条件政策。”。研究人员还发现,模型越大,这种防御技术的有效性就会降低
有趣的是,与OpenAI不同,Anthropic采用了“宪法”训练方法,最大限度地减少了人为干预。这种方法允许模型在最少的外部指导下自我改进,而不是严重依赖人类互动的更传统的人工智能训练方法(通常通过一种称为“通过人类反馈进行强化学习”的方法)
Anthropic的研究结果不仅突出了人工智能的复杂性,而且还可能颠覆其预期目的。在人工智能手中,“邪恶”的定义可能与书写其良知的代码一样具有可塑性
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
