扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

腾讯发布CL-bench基准测试,显示顶尖大模型在真实上下文学习任务中平均解决率仅17.2%。模型面对新知识时表现不佳,揭示从"记忆机器"向"现场学习"转型的挑战。

摘要

腾讯AI科学家姚顺雨团队最新发布的CL-bench基准测试,首次系统评估了大模型在上下文学习(Context Learning)领域的真实能力。研究显示,包括GPT-5.1、Claude Opus 4.5在内的十款顶尖大模型,在面对完全排除预训练记忆干扰的500个复杂上下文任务时,平均解决率仅为17.2%,即便表现最佳的GPT-5.1也仅达到23.7%。这一结果揭示了大模型从"记忆机器"向"现场学习者"转型的核心瓶颈。

目前的大模型,主要还是个记忆机器,已经学过的知识,推理分析解决问题得心应手。

一旦面对真实世界上下文学习(Context Learning)任务,即便是表现最好的模型,面对新知识时平均解决率不足五分之一。

模型想要迈向高价值应用,核心瓶颈就在于能否用好Context。

通俗易懂的讲就是模型能够像人一样,面对从未接触过的领域任务,能翻一翻资料(上下文)就能解决一个全新的任务。

这里的上下文学习(Context Learning)不同于我们熟知的上下文学习(In-Context Learning)。

In-Context Learning通常只是让模型通过几个示例来模仿输出格式或浅层的任务模式。

Context Learning要求一种更深层的认知飞跃:模型必须阅读一份从未见过的产品说明书,然后立刻处理复杂的操作故障;或者阅读一个虚构国家的法律条文,去裁决一起棘手的案件;甚至是从一堆杂乱的实验数据中,现场推导出一套从未被发现的物理定律。

人类天生具备这种能力,我们到了新环境,阅读新规则,就能通过逻辑推理适应并解决问题。

姚顺雨加入腾讯担任首席AI科学家后,带领团队首次发布研究成果。

图片

CL-bench基准,是为“让大模型成为上下文学习者”这一目标打造的。

真正的智能在于现场学习新知

现今的人工智能领域存在一个被光环掩盖的巨大错位。

当我们惊叹于大语言模型在奥数竞赛、代码编写或是专业考试中取得超越人类的成绩时,忽略了这些成就背后的本质:模型更多是在调用预训练阶段背诵下来的海量静态知识。

真正的现实世界任务远比这些标准化的试题要复杂得多,它们高度依赖特定的当下上下文,要求解决者必须跳出已有的经验库,去理解、消化并运用刚刚接触到的新信息。

目前的模型在这一点上表现如何,CL-bench基准测试给出了残酷的答案。

面对精心设计的、完全排除预训练记忆干扰的500个复杂上下文和近2000个任务,十款顶尖大模型的平均解决率仅为17.2%。

即便是目前公认最强的GPT-5.1模型,其解决率也只有23.7%。

现有模型依然像是只会背书的优等生,一旦考纲变成了从未见过的实操手册,它们就显得笨拙而迷茫。

这一发现重新定义了我们对长文本处理和指令遵循的认知。

过去我们以为只要把窗口做大,把书扔进去,模型就能学会。

事实证明,能够检索信息或回答简单问题,并不代表模型真正学会了上下文中的逻辑和知识。

真正的智能不仅仅是记忆的提取,更是对新环境的快速建模与适应。

图片

上图清晰地展示了这种供需错配。

我们一直在优化模型利用预训练知识对提示词进行推理的能力,但现实世界需要的是模型从复杂的上下文里学习新知识并进行推理。

这就是上下文学习的鸿沟。

全新基准揭开模型能力的真实面纱

为了精准捕捉并量化这种能力,CL-bench经过严密设计。

研究团队动用了大量领域专家,耗时数千小时,构建了一个旨在考察模型现学现卖能力的测试体系。

为了确保模型无法作弊,也就是不能依靠预训练中记住的知识来答题,CL-bench采用了三种极为严格的数据构建策略。

专家们进行了大量的虚构创作。

他们可能会编写一套完全不存在的法律体系,包含虚构的判例和立法原则;或者设计一种全新的编程语言,拥有独特的语法结构。

在这些任务中,模型没有任何经验可循,必须完全依赖题目给出的文档。

对现有的真实内容进行实质性修改。

比如修改历史事件的进程,改变科学定义或数学常数,甚至篡改技术文档中的规格参数。

如果模型依然按照常识去回答,就会掉入陷阱,只有严格遵循当下上下文的模型才能得分。

引入极度长尾或新兴的专业知识。

这些内容要么是刚刚发布的尖端研究,要么是极其冷门的专业领域,确保大概率未被纳入模型的训练语料中。

在这些原则下,CL-bench将上下文分为四大类,覆盖了人类学习新知的核心场景。

图片

第一类是领域知识推理。这要求模型像专业人士一样思考。

比如在金融、医疗、法律咨询等场景下,模型需要阅读特定的行业报告或案例背景,进行专业的分析和判断,建立起对该领域逻辑的理解。

第二类是规则系统应用。这更像是逻辑游戏或编程挑战。

上下文中可能给出一套全新的游戏机制、数学形式体系或技术标准。模型必须理解这些严密的规则网络,并在其中进行演绎推理。

第三类是程序性任务执行。这是职场中最常见的能力。

面对一份复杂的产品手册、软件文档或工作流规范,模型需要按步骤执行操作,进行故障排查或流程编排。这考验的是模型将陈述性知识转化为程序性操作的能力。

第四类是经验发现与模拟。这是最难的一类,也是最接近科学发现的过程。

模型会收到实验数据、观测记录或一个仿真环境的描述,它需要通过归纳推理,从数据中通过试错或观察,反推出背后支配系统运作的规律或物理定律。

每一个测试案例都配备了详尽的验证标准。

平均每个上下文包含63.2个验证点,细致到每一个步骤的正确性、每一个数据的准确性以及逻辑链条的完整性。

图片

我们可以看上图这个具体的例子。

这是一个关于带电粒子在磁场中运动的物理分析任务,但其中的具体参数和环境设定是特定的。

模型不能照搬教科书上的通用公式,而必须根据文档中给出的特定数据和假设(比如磁场方向的特殊设定)来推导。

GPT-5.1在回答时虽然试图进行计算,但最终的评分显示它失败了,因为它忽略了关于磁场方向随时间线性增加这一关键的上下文设定,导致整个推理基础崩塌。

图片

从统计数据看,这个基准测试的文本长度平均在10.4K token,最长达到65K,这正处于当前模型声称能够轻松处理的舒适区,因此测试结果的低分更显真实能力的匮乏。

顶尖模型在复杂适应性上的集体溃败

将十款处于行业前沿的大模型置于CL-bench的显微镜下时。

图片

GPT-5.1(High)以23.7%的总体解决率位居榜首,但这仅仅意味着它做对了两成多的题目。

紧随其后的是Claude Opus 4.5 Thinking,得分为21.1%。

其他的模型,包括GPT-5.2、o3、Kimi K2、HY 2.0、Gemini 3 Pro等,大多集中在13%到18%的区间内。

即便是被称为推理怪兽的新一代模型,在面对真正需要现场学习的任务时,表现也远未达到实用的门槛。

所有模型在经验发现与模拟这一类别上都遭遇了滑铁卢。

这一类别的平均解决率仅有11.8%,比其他类别低了约6个百分点。

说明目前的AI非常擅长演绎推理,即根据给定的规则推导结果,但非常不擅长归纳推理,即从现象中总结规则。

要让模型像科学家一样去观察数据、发现定律,依然是极其困难的挑战。

不同模型在不同领域的偏科现象也十分有趣。虽然总体上差距不大,但在细分项上却各有千秋。

图片

例如,HY 2.0在法律与监管子类别上表现惊人,解决了36.6%的任务,甚至超过了GPT-5.2和Claude Opus 4.5。该模型在处理条文类、规则类文本时具有特定的架构优势或训练倾向。

右下角的区域普遍颜色较浅,那里对应的是实验数据、观测数据和模拟环境。

这块认知死角是全行业的通病,无论模型的参数量有多大,只要涉及从数据中提取新知,它们就会变得犹豫不决或胡言乱语。

另一个值得注意的现象是,任务的难度并不完全取决于知识领域,而取决于知识的组织形式。

图片

同属法律领域,法律咨询任务要求模型像律师一样综合案情和法理进行推理,模型的表现相对较差;而法律与监管任务侧重于像法官一样根据明确的条款进行裁决,模型的表现就相对较好。

模型更善于执行明确的规则,而在需要综合判断和灵活运用知识时显得力不从心。

这种差异告诉我们,在评估模型时,不能简单地说它懂法律或不懂法律,而要看它是在机械地应用条文,还是真正理解了法律背后的逻辑体系。

认知瓶颈背后的深度归因

为什么模型会在上下文学习上表现如此糟糕?

通过对错误案例的深度解剖,研究者们发现了一些共性的认知缺陷。

最主要的失败原因是对上下文的忽视和误用。

数据显示,超过60%的错误源于误用上下文,即模型读取了信息,但理解错了,或者把A条款用到了B场景上。

还有很大一部分错误是直接忽略上下文,模型似乎在阅读长文时会走神,漏掉关键的约束条件。

目前的注意力机制在处理长文本时,虽然能看见所有字,但无法像人类一样精准地分配关注度给那些真正决定成败的细节。

图片

从错误类型分布表中可以看到,几乎所有模型的上下文误用比例都居高不下。

这反驳了只要窗口足够大,模型就能理解一切的乐观看法。

即使在窗口范围内,模型的信息整合能力也是有限的。

另一个反直觉的发现是,增加推理计算量(即让模型多想一会儿)并不总是有效。

对于GPT-5.1来说,开启高推理模式确实能带来约2.5%的性能提升,特别是在管理学和实验数据分析这类需要深度思考的任务上。

但对于GPT-5.2和其他一些模型,增加推理时长反而可能导致性能下降。

这可能是因为模型在漫长的思维链中迷失了方向,或者是过度的推理导致了对原有简单指令的偏离。

图片

上图展示了GPT-5.1在不同推理力度下的表现。

虽然红色柱子(高推理)普遍高于蓝色柱子(低推理),但增幅微弱,且在某些领域几乎持平。说明单纯堆砌推理算力并不是解决上下文学习难题的银弹。

更令人担忧的是随着文本长度增加,模型性能的线性衰退。

尽管所有测试模型都宣称支持超长上下文,但在实际测试中,一旦输入长度超过15K token,解决率就开始稳步下滑。

到了120K token以上,Claude Opus 4.5的解决率甚至暴跌了超过20%。

说明现有的长文本技术更多是解决了读进去的问题,还没有解决读得懂和记得住的问题。

长文档对于模型来说,依然是一场巨大的记忆与注意力考验。

图片

这个趋势图是对当前长文本技术泡沫的一次有力戳破。

无论模型的架构多么先进,随着信息量的堆积,信噪比的下降必然导致理解能力的退化。

除了理解力,指令遵循能力的短板也是导致失败的重要原因。

在许多案例中,模型明明分析对了局势,却因为没有严格遵守输出格式,或者忽略了严禁使用未授权函数这样的禁令而丢分。

图片

这个无人机物流的案例非常典型。

系统明确要求只能使用文档中提供的函数,且必须进行安全检查。

Gemini 3 Pro虽然正确识别出了用户请求的函数不存在,但在给出替代方案时,却因为忽略了文档中关于安全空域请求的强制性规定,漏掉了关键步骤。

它就像一个虽然指出了问题但给出了违规建议的操作员,在真实的高风险场景中,这种错误是致命的。

这项研究最终将我们引向了一个新的发展方向。

与其无休止地向模型灌输过时的静态知识,不如训练它如何快速适应新环境。

未来的训练数据不应只是百科全书,而应该包含更多阅读理解式的配对数据。

给一段复杂的陌生材料,逼迫模型从中学习并解决问题。

这种元能力的培养,才是通向通用人工智能的必经之路。

CL-bench像是一个风向标,告诉我们大模型的下一个进化阶段,不再是比拼谁背的书多,而是比拼谁学得快、用得活。

只有当模型能够面对一份完全陌生的文档,像人类专家一样从容地学习、推理并解决问题时,我们才能说,真正的智能时代已经到来。

原文链接:点击前往 >

文章作者:算泥

版权申明:文章来源于算泥。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch103
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch103
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与16万+出海人同行!