Anthropic“宪法分类器”亮相：能否有效锁住AI模型的“越狱”冲动？-信息流-小熊财经

近期，Anthropic公司公布了一项创新性的技术——“宪法分类器”，旨在应对大型语言模型中滥用自然语言提示的问题。这项技术将人类价值观融入模型，为其设定了明确的界限，防止生成超出预期的输出。

据Anthropic公司的安全保障研究团队透露，在最新学术论文中，他们详细阐述了这一安全措施。实验结果显示，在引入宪法分类器后，Claude3.5 Sonnet（Anthropic公司的最新大型语言模型）的成功越狱情况显著减少了81.6%。值得注意的是，这一安全措施对模型性能的影响微乎其微，生产流量拒绝率仅增加了0.38%，推理开销则增加了23.7%。

为了验证宪法分类器的有效性，Anthropic公司还发起了一项挑战活动，邀请用户尝试突破8个与化学、生物、放射和核（CBRN）相关的越狱关卡。然而，这一举措也引发了一些争议。部分人士认为，这一行为相当于利用社区作为安全志愿者或“红队队员”，质疑其是否是在让社区无偿工作，而公司则从中获利。

面对这些质疑，Anthropic公司进行了回应。他们指出，成功越狱的模型是通过绕过宪法分类器的防御措施，而非直接规避。公司还详细解释了两种越狱方法：良性释义和长度利用。良性释义是通过改变表述方式来欺骗模型，而长度利用则是通过添加无关细节来误导模型。

尽管如此，Anthropic公司也承认，在测试期间，他们基于规则的测试系统存在误报和漏报的可能性。部分提交的提示被拒绝率异常高，这反映了测试系统尚需进一步完善。