防范AI模型越狱，新技术保护措施来了_前沿科技

防范AI模型越狱，新技术保护措施来了

创始人

2025-02-05 16:20:32

0次

2025-02-05 11:40:12 作者：狼叫兽

为了应对人工智能工具中存在的滥用自然语言提示的问题，Anthropic公司推出了一项名为“宪法分类器（constitutional classifiers）”的新概念。该技术将类似于人类价值观的宪法植入大型语言模型中，以防止模型超越安全防护范围生成超出预期的输出内容。

这项安全保障研究团队在最新学术论文中公布了这一新的安全措施。他们发现，在实施宪法分类器后，针对Claude3.5 Sonnet（即 Anthropic 公司最新的大型语言模型）的成功越狱情况减少了81.6%。同时，宪法分类器对性能的影响极小，“生产流量拒绝率仅绝对增加0.38%，推理开销增加23.7%”。

Anthropic公司还发布了一个演示项目，向用户发起挑战，让他们尝试突破8个与化学、生物、放射和核（CBRN）相关内容相关的越狱关卡。然而，这一举措也引发了一些批评声音，有人认为这相当于众包安全志愿者或“红队队员”。有人质疑：“所以你是让社区无偿为你工作，好让你在闭源模型上赚取更多利润？”

Anthropic公司指出，成功越狱的模型是绕过了宪法分类器的防御措施，并非直接规避它们。他们列举了两种越狱方法：良性释义和长度利用。良性释义是指通过改变表述方式来欺骗大型语言模型；长度利用则是通过无关细节误导模型。

然而， Anthropic 公司也承认，在测试期间提交的提示“拒绝率高得离谱”，意识到其基于规则的测试系统存在误报和漏报的可能性。

总之，Anthropic公司的新安全措施在遏制大型语言模型越狱方面取得了一定成果，并展示出宪法分类器在解决自然语言提示滥用问题上的潜力。然而，需要注意的是这些技术并不能完全解决所有问题，并且需要进一步的研究和改进。

上一篇：原创揭秘DeepSeek：创新还是改进？

下一篇：佛山市委书记唐屹峰：要推动人工智能与制造业深度融合

防范AI模型越狱，新技术保护措施来了

相关内容

热门资讯