来自人工智能(AI)公司AutoGPT、东北大学和微软研究院的一组研究人员开发了一种工具,可以监测大型语言模型(LLM)的潜在有害输出,并阻止其执行。
一篇题为《在野外安全测试语言模型代理》的预印本研究论文描述了该代理。根据研究,该代理足够灵活,可以监控现有的LLM,并可以在代码攻击等有害输出发生之前阻止它们。
根据研究:
“代理操作由上下文敏感的监控器进行审核,该监控器强制执行严格的安全边界以阻止不安全的测试,对可疑行为进行排名和记录,以供人类检查。”
该团队写道,现有的监测LLM输出有害交互的工具在实验室环境中似乎效果良好,但当应用于测试已经在开放互联网上生产的模型时,它们“往往无法捕捉到现实世界的动态复杂性”
表面上看,这是因为边缘案例的存在。尽管最有才华的计算机科学家尽了最大努力,但研究人员可以在每一种可能的伤害向量发生之前就想象出来的想法在人工智能领域基本上被认为是不可能的。
即使与人工智能交互的人类有着最好的意图,看似无害的提示也可能带来意想不到的伤害。
为了训练监控代理,研究人员在29个不同的任务中建立了一个包含近2000个安全的人/人工智能交互的数据集,从简单的文本检索任务和编码更正到从头开始开发整个网页。
相关:Meta在重组中解散了负责的人工智能部门
他们还创建了一个竞争性测试数据集,其中充满了手动创建的对抗性输出,其中包括数十个故意设计为不安全的输出。
然后,这些数据集被用于在OpenAI的GPT 3.5 turbo上训练一个代理,这是一个最先进的系统,能够以近90%的准确率区分无害和潜在有害的输出。
微信里点“发现”,扫一下二维码便可将本篇文章分享至朋友圈
