ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Anthropic“宪法分类器”亮相:能否有效锁住AI模型的“越狱”冲动?

时间:2025-02-05 17:01:40来源:中关村在线编辑:快讯团队

近期,Anthropic公司公布了一项创新性的技术——“宪法分类器”,旨在应对大型语言模型中滥用自然语言提示的问题。这项技术将人类价值观融入模型,为其设定了明确的界限,防止生成超出预期的输出。

据Anthropic公司的安全保障研究团队透露,在最新学术论文中,他们详细阐述了这一安全措施。实验结果显示,在引入宪法分类器后,Claude3.5 Sonnet(Anthropic公司的最新大型语言模型)的成功越狱情况显著减少了81.6%。值得注意的是,这一安全措施对模型性能的影响微乎其微,生产流量拒绝率仅增加了0.38%,推理开销则增加了23.7%。

为了验证宪法分类器的有效性,Anthropic公司还发起了一项挑战活动,邀请用户尝试突破8个与化学、生物、放射和核(CBRN)相关的越狱关卡。然而,这一举措也引发了一些争议。部分人士认为,这一行为相当于利用社区作为安全志愿者或“红队队员”,质疑其是否是在让社区无偿工作,而公司则从中获利。

面对这些质疑,Anthropic公司进行了回应。他们指出,成功越狱的模型是通过绕过宪法分类器的防御措施,而非直接规避。公司还详细解释了两种越狱方法:良性释义和长度利用。良性释义是通过改变表述方式来欺骗模型,而长度利用则是通过添加无关细节来误导模型。

尽管如此,Anthropic公司也承认,在测试期间,他们基于规则的测试系统存在误报和漏报的可能性。部分提交的提示被拒绝率异常高,这反映了测试系统尚需进一步完善。

更多热门内容