防范AI模型越狱,新技术保护措施来了
创始人
2025-02-05 16:20:32
0

2025-02-05 11:40:12 作者:狼叫兽

为了应对人工智能工具中存在的滥用自然语言提示的问题,Anthropic公司推出了一项名为“宪法分类器(constitutional classifiers)”的新概念。该技术将类似于人类价值观的宪法植入大型语言模型中,以防止模型超越安全防护范围生成超出预期的输出内容。

这项安全保障研究团队在最新学术论文中公布了这一新的安全措施。他们发现,在实施宪法分类器后,针对Claude3.5 Sonnet(即 Anthropic 公司最新的大型语言模型)的成功越狱情况减少了81.6%。同时,宪法分类器对性能的影响极小,“生产流量拒绝率仅绝对增加0.38%,推理开销增加23.7%”。

Anthropic公司还发布了一个演示项目,向用户发起挑战,让他们尝试突破8个与化学、生物、放射和核(CBRN)相关内容相关的越狱关卡。然而,这一举措也引发了一些批评声音,有人认为这相当于众包安全志愿者或“红队队员”。有人质疑:“所以你是让社区无偿为你工作,好让你在闭源模型上赚取更多利润?”

Anthropic公司指出,成功越狱的模型是绕过了宪法分类器的防御措施,并非直接规避它们。他们列举了两种越狱方法:良性释义和长度利用。良性释义是指通过改变表述方式来欺骗大型语言模型;长度利用则是通过无关细节误导模型。

然而, Anthropic 公司也承认,在测试期间提交的提示“拒绝率高得离谱”,意识到其基于规则的测试系统存在误报和漏报的可能性。

总之,Anthropic公司的新安全措施在遏制大型语言模型越狱方面取得了一定成果,并展示出宪法分类器在解决自然语言提示滥用问题上的潜力。然而,需要注意的是这些技术并不能完全解决所有问题,并且需要进一步的研究和改进。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
联想宣布旗下AIPC个人智能体... DoNews2月7日消息,近日,联想宣布个人智能体“小天”已接入DeepSeek,除了目前可以在联想...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...