Guide Labs推出全新可解释大语言模型
创始人
2026-02-24 18:40:31
0

深度学习模型的一大挑战在于理解其行为逻辑:无论是xAI反复调试Grok奇怪的政治倾向,还是ChatGPT的阿谀奉承问题,或是常见的幻觉现象,深入理解拥有数十亿参数的神经网络并非易事。

旧金山初创公司Guide Labs由CEO Julius Adebayo和首席科学官Aya Abdelsalam Ismail创立,如今为这一问题提供了解决方案。周一,该公司开源了一个80亿参数的大语言模型Steerling-8B,采用全新架构设计,使其行为易于解释:该模型产生的每个Token都可以追溯到其在训练数据中的源头。

这可以简单到确定模型引用事实的参考材料,也可以复杂到理解模型对幽默或性别的理解。

"如果我有一万亿种编码性别的方式,并且在我拥有的一万亿个事物中的10亿个事物中编码了它,你必须确保找到所有这10亿个我编码的事物,然后你必须能够可靠地打开它们,关闭它们,"Adebayo告诉TechCrunch。"你可以用当前的模型做到这一点,但这非常脆弱......这算是一个圣杯级别的问题。"

Adebayo在MIT攻读博士学位时开始这项工作,合著了一篇被广泛引用的2020年论文,证明现有的理解深度学习模型的方法并不可靠。这项工作最终催生了构建大语言模型的新方法:开发者在模型中插入一个概念层,将数据分类到可追踪的类别中。这需要更多前期数据标注,但通过使用其他AI模型的帮助,他们能够训练出这个迄今为止最大的概念验证模型。

"人们做的那种可解释性是......对模型进行神经科学研究,而我们颠倒了这一点,"Adebayo说。"我们实际做的是从头开始设计模型,这样你就不需要做神经科学研究。"

这种方法的一个担忧是,它可能会消除使大语言模型如此引人入胜的一些涌现行为:它们对尚未训练过的事物进行新方式泛化的能力。Adebayo表示这在他公司的模型中仍然会发生:他的团队追踪他们称为"发现概念"的东西,这些是模型自己发现的概念,比如量子计算。

Adebayo认为这种可解释的架构将是每个人都需要的。对于面向消费者的大语言模型,这些技术应该允许模型构建者做诸如阻止使用受版权保护的材料,或更好地控制围绕暴力或药物滥用等主题的输出等事情。受监管的行业将需要更可控的大语言模型,例如在金融领域,评估贷款申请人的模型需要考虑财务记录等因素,但不能考虑种族。科学工作中也需要可解释性,这是Guide Labs开发技术的另一个领域。蛋白质折叠已经成为深度学习模型的一大成功,但科学家需要更深入地了解他们的软件为什么能找到成功的组合。

"这个模型证明的是,训练可解释模型不再是一种科学;现在它是一个工程问题,"Adebayo说。"我们解决了科学问题,我们可以扩展它们,没有理由这种模型不能匹配前沿级模型的性能,"而前沿模型拥有更多参数。

Guide Labs表示,Steerling-8B能够达到现有模型90%的能力,但得益于其新颖的架构,使用的训练数据更少。该公司从Y Combinator毕业,并在2024年11月从Initialized Capital筹集了900万美元的种子轮融资,下一步是构建更大的模型,并开始向用户提供API和智能体访问。

"我们目前训练模型的方式非常原始,所以民主化固有的可解释性实际上对我们人类来说将是一个长期的好事,"Adebayo告诉TechCrunch。"当我们追求这些将要变得超级智能的模型时,你不希望有一些神秘的东西代表你做决定。"

Q&A

Q1:Steerling-8B与传统大语言模型有什么不同?

A:Steerling-8B采用全新的可解释架构设计,其最大特点是模型产生的每个Token都可以追溯到训练数据中的源头。开发者在模型中插入概念层,将数据分类到可追踪的类别中,使模型行为易于理解和解释。

Q2:Guide Labs的可解释技术会影响模型的创新能力吗?

A:不会。虽然有这方面的担忧,但Adebayo表示涌现行为仍然会发生。他们的团队追踪"发现概念",即模型自己发现的新概念,比如量子计算,证明模型仍保持对未训练内容的泛化能力。

Q3:可解释大语言模型主要应用在哪些领域?

A:主要应用包括:消费者产品中阻止使用受版权保护材料、控制暴力或药物滥用相关输出;金融等受监管行业,确保模型评估时只考虑相关因素而非种族等;科学研究领域,如蛋白质折叠研究中帮助科学家理解模型的推理过程。

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
联想宣布旗下AIPC个人智能体... DoNews2月7日消息,近日,联想宣布个人智能体“小天”已接入DeepSeek,除了目前可以在联想...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...