姚顺雨腾讯首篇论文:给AI下半场指路“上下文学习”
创始人
2026-02-04 21:21:12
0

梦晨 发自 凹非寺

量子位 | 公众号 QbitAI

姚顺雨,入职腾讯首席AI科学家后,参与的首个成果来了。

CL-bench,专门用来测试大模型“从上下文中学习”的能力。

这项研究与姚顺雨一贯的研究思路高度契合,去年8月他在OpenAI期间发表的博文《下半场》曾提出一个被反复引用的判断:

AI正处在“中场休息”阶段,上半场是训练大于评估,下半场将是评估大于训练。

真正重要的不是继续堆模型规模,而是让模型在真实任务、真实系统中经得起检验。

CL-bench的评测结果相当扎心,当前最强的GPT-5.1 (High),任务解决率只有23.7%。

换句话说,即便把解题所需的全部信息都喂给模型,它依然在超过四分之三的任务上栽了跟头。

为什么需要上下文学习

研究团队在博客中开门见山地指出了一个被忽视的问题:今天的前沿模型是顶级的“做题家”,能解奥数、能写代码、能通过人类需要苦读数年才能拿下的专业资格考试。

但这能在考场拿满分的学生,未必能胜任真实世界的工作。

博客中举了三个人类日常生活的例子:

  • 开发者扫过从未见过的工具文档就能立刻调试代码;

  • 玩家拿起新游戏的规则书在实战中边玩边学;

  • 科学家从复杂的实验日志中筛选数据推导出新的结论。

这些场景中,人类并不只依赖多年前学到的死知识,而是在实时地从眼前的上下文中学习。

然而今天的语言模型并非如此。它们主要依赖“参数化知识”,即在预训练阶段被压缩进模型权重里的静态记忆,在推理时更多是在调用这些封存的内部知识,而不是主动从当前输入的新信息中汲取营养。

团队用一句话概括了这个矛盾:

我们造出了依赖“过去”的参数推理者,但世界需要的是能吸收“当下”环境上下文的学习者。

CL-bench:500个复杂上下文,一个简单但苛刻的要求

为了量化这个差距,团队构建了CL-bench。

这个基准包含由资深领域专家精心制作的500个复杂上下文、1899个任务和31607个验证标准。设计原则只有一条:解决每个任务要求模型必须从上下文中学习到预训练中不存在的新知识,并正确应用。

模型需要学习的知识非常广泛,包括新的领域知识、不熟悉的规则系统、复杂的产品工作流,甚至是必须从实验数据中推导归纳出的定律或结论。

所有这些知识要么是由领域专家完全新构建的,要么是取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源。

具体来说,CL-bench涵盖了四种现实世界的上下文学习场景:领域知识推理,比如虚构的法律体系或创新的金融工具;规则系统应用,比如新的游戏机制或编程语法;程序性任务执行,比如工作流和产品手册;以及最具挑战性的经验发现与模拟,要求模型从数据中归纳出潜在规律。

团队展示了几个任务案例:在一部长达2.3万字、刚刚生效的新法律下判一起真实纠纷;基于一门新设计的教育编程语言规范实现一个带有时间条件终止的周期性程序;在一套从未见过的编程框架中执行代码;在给定技术规格和长期环境政策情景的条件下模拟关键技术金属的可持续全球供应。

为了确保测试结果反映的是真正的上下文学习能力而非数据泄露或记忆,团队采用了无污染设计:专家创作完全虚构的内容,或修改现实世界的内容创建变体,或整合在预训练数据集中代表性极低的小众内容。

论文特别提到,在不提供任何上下文的情况下,GPT-5.1 (High)仅能解决不到1%的任务,有力证明了模型若不从上下文中学习几乎完全无法解决这些任务。

平均而言,领域专家花费约20小时标注每个上下文,以确保任务构建的质量和深度。

十个前沿模型集体翻车

即使提供上下文,当前模型的表现也好不到哪去。

团队在CL-bench上评估了十个最先进的语言模型,结果揭示了当前模型几乎不能从复杂上下文中学习来解决真实场景的问题。

平均而言,模型仅解决了17.2%的任务,即便是表现最好的GPT-5.1 (High)也仅达到23.7%。

错误分析显示了几个值得注意的现象。忽略或误用上下文是导致失败的主要原因,许多错误并非源于信息缺失,而是源于模型忽视了上下文中的关键细节或错误地应用了它们。

在许多情况下,模型只会利用预训练学习到的静态知识来解决任务,即使上下文明确定义了新的规则、概念或程序,模型也不会学习和利用。

此外,从实验数据和环境模拟中进行归纳推理比演绎应用更困难。演绎任务让模型根据上下文中明确给出的规则和流程进行应用,而经验发现和环境模拟类任务则要求归纳推理。模型在这类任务上的表现明显较差,任务解决率通常低于10%,且结果波动大。

更高的推理强度通常能提升上下文学习效果,但提升有限。例如GPT-5.1在管理类和实验数据类任务上的表现提升约6%,但其他模型提升有限甚至可能下降,说明单靠更多推理并不足够,模型还必须能够正确吸收和组织上下文信息。

研究团队最后写道:

CL-bench充分解释了语言模型在真实场景中为什么经常出错:即使有了上下文工程,给模型准备好了所需的上下文,模型也会失败。如果模型不能真正从中学习,仅仅提供上下文是不够的。

从“AI下半场”到腾讯首席AI科学家

与其继续刷榜,不如先搞清楚模型到底还差在哪儿。

CL-bench某种程度上正是姚顺雨关于AI下半场这一判断的具体实践。

这项研究由腾讯混元和复旦大学团队合作完成,共同一作Shihan Dou、Ming Zhang、Zhangyue Yin。

致谢部分提到,从上下文中学习新知识的想法最早源于Pluto Zhou在2024年提出的设想,同时特别感谢姚顺雨提供的鼓励以及多次宝贵建议,称“他的全面而细致的审阅和反馈,极大地帮助我们进一步提升了这项工作的质量”。

姚顺雨今年1月正式加盟腾讯,职位是腾讯总办首席AI科学家,向腾讯总裁刘炽平汇报,同时兼任AI Infra部、大语言模型部负责人向技术工程事业群总裁卢山汇报。

团队在最后也留下了下一步研究思路:

起码在当下,我们的目标是很明确:让上下文学习真正走向现实。

论文地址:

https://github.com/Tencent-Hunyuan/CL-bench/blob/main/clbench-paper.pdf

参考链接:

相关内容

热门资讯

无机房电梯楼层显示器异常解决指... 电梯 无机房电梯楼层显示器异常怎么办? 别急,本文将为您详细解答。首先,我们要了解无机房电梯楼层显示...
东风汽车集团申请阻燃柔性固态电... 金融界2025年1月31日消息,国家知识产权局信息显示,东风汽车集团股份有限公司申请一项名为“一种阻...
中端性能机大乱斗:加米耀酷真,... 近期,中端手机市场迎来了多款新品,包括一加Ace 5、REDMI K80、荣耀GT、真我Neo 7以...
我市特步5G工厂入选国家5G工... 日前,工业和信息化部发布《关于2024年5G工厂名录的公示》,我市特步5G工厂入选国家5G工厂名录,...
卫星化学获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示卫星化学(002648)新获得一项实用新型专利授权,专利名为“...
自动驾驶+跟踪巡逻+现场抓捕 ... 近日,在浙江温州的闹市区,特警巡逻队带着一台球形机器人一起巡街,引来不少路人的关注。 球形“机器警察...
360智脑张向征:构建安全可信... 人工智能的加速发展,有力推动了社会的数智化转型;与此同时,带来的相关安全风险也日益凸显。近日,在北京...
原创 3... 一、iQOO 12 参考价格:2659元(12G+256G)。 性能强劲,游戏无忧 首先不得...
联想宣布旗下AIPC个人智能体... DoNews2月7日消息,近日,联想宣布个人智能体“小天”已接入DeepSeek,除了目前可以在联想...
2025年消脂设备产业数据报告 消脂仪是医学美容领域的医疗器械。 它使用激光和微波等设备根据其波长向真皮/皮下平面发射能量; 通过加...