近期,Anthropic公司公布了一项创新性的技术——“宪法分类器”,旨在应对大型语言模型中滥用自然语言提示的问题。这项技术将人类价值观融入模型,为其设定了明确的界限,防止生成超出预期的输出。
据Anthropic公司的安全保障研究团队透露,在最新学术论文中,他们详细阐述了这一安全措施。实验结果显示,在引入宪法分类器后,Claude3.5 Sonnet(Anthropic公司的最新大型语言模型)的成功越狱情况显著减少了81.6%。值得注意的是,这一安全措施对模型性能的影响微乎其微,生产流量拒绝率仅增加了0.38%,推理开销则增加了23.7%。
为了验证宪法分类器的有效性,Anthropic公司还发起了一项挑战活动,邀请用户尝试突破8个与化学、生物、放射和核(CBRN)相关的越狱关卡。然而,这一举措也引发了一些争议。部分人士认为,这一行为相当于利用社区作为安全志愿者或“红队队员”,质疑其是否是在让社区无偿工作,而公司则从中获利。
面对这些质疑,Anthropic公司进行了回应。他们指出,成功越狱的模型是通过绕过宪法分类器的防御措施,而非直接规避。公司还详细解释了两种越狱方法:良性释义和长度利用。良性释义是通过改变表述方式来欺骗模型,而长度利用则是通过添加无关细节来误导模型。
尽管如此,Anthropic公司也承认,在测试期间,他们基于规则的测试系统存在误报和漏报的可能性。部分提交的提示被拒绝率异常高,这反映了测试系统尚需进一步完善。