腾讯姚顺雨署名首篇论文：让AI成为上下文学习者

首页
活动
人脉&社群
找服务
合作
企业会员
资讯
最新资讯文章专题 7x24快讯
报告
数据报告报告专题
付费专栏
短剧精选快问快答合集出海年鉴合集 iOS、GP上下架避坑指南
出海数据库
出海企业库出海产品库月出海榜单海外产品榜单
全球产品与增长展会
PAGC 2026 PAGC 2025 PAGC 2024 PAGC 2023 PAGC 2022 PAGC 2021

扬帆创投微信小程序

更聚焦的出海投融资平台
精准高效领先的融资对接服务

微信扫一扫进入小程序

腾讯发布CL-bench基准测试，显示顶尖大模型在真实上下文学习任务中平均解决率仅17.2%。模型面对新知识时表现不佳，揭示从"记忆机器"向"现场学习"转型的挑战。

摘要

腾讯AI科学家姚顺雨团队最新发布的CL-bench基准测试，首次系统评估了大模型在上下文学习（Context Learning）领域的真实能力。研究显示，包括GPT-5.1、Claude Opus 4.5在内的十款顶尖大模型，在面对完全排除预训练记忆干扰的500个复杂上下文任务时，平均解决率仅为17.2%，即便表现最佳的GPT-5.1也仅达到23.7%。这一结果揭示了大模型从"记忆机器"向"现场学习者"转型的核心瓶颈。

目前的大模型，主要还是个记忆机器，已经学过的知识，推理分析解决问题得心应手。

一旦面对真实世界上下文学习（Context Learning）任务，即便是表现最好的模型，面对新知识时平均解决率不足五分之一。

模型想要迈向高价值应用，核心瓶颈就在于能否用好Context。

通俗易懂的讲就是模型能够像人一样，面对从未接触过的领域任务，能翻一翻资料（上下文）就能解决一个全新的任务。

这里的上下文学习（Context Learning）不同于我们熟知的上下文学习（In-Context Learning）。

In-Context Learning通常只是让模型通过几个示例来模仿输出格式或浅层的任务模式。

Context Learning要求一种更深层的认知飞跃：模型必须阅读一份从未见过的产品说明书，然后立刻处理复杂的操作故障；或者阅读一个虚构国家的法律条文，去裁决一起棘手的案件；甚至是从一堆杂乱的实验数据中，现场推导出一套从未被发现的物理定律。

人类天生具备这种能力，我们到了新环境，阅读新规则，就能通过逻辑推理适应并解决问题。

姚顺雨加入腾讯担任首席AI科学家后，带领团队首次发布研究成果。

CL-bench基准，是为“让大模型成为上下文学习者”这一目标打造的。

真正的智能在于现场学习新知

现今的人工智能领域存在一个被光环掩盖的巨大错位。

当我们惊叹于大语言模型在奥数竞赛、代码编写或是专业考试中取得超越人类的成绩时，忽略了这些成就背后的本质：模型更多是在调用预训练阶段背诵下来的海量静态知识。

真正的现实世界任务远比这些标准化的试题要复杂得多，它们高度依赖特定的当下上下文，要求解决者必须跳出已有的经验库，去理解、消化并运用刚刚接触到的新信息。

目前的模型在这一点上表现如何，CL-bench基准测试给出了残酷的答案。

面对精心设计的、完全排除预训练记忆干扰的500个复杂上下文和近2000个任务，十款顶尖大模型的平均解决率仅为17.2%。

即便是目前公认最强的GPT-5.1模型，其解决率也只有23.7%。

现有模型依然像是只会背书的优等生，一旦考纲变成了从未见过的实操手册，它们就显得笨拙而迷茫。

这一发现重新定义了我们对长文本处理和指令遵循的认知。

过去我们以为只要把窗口做大，把书扔进去，模型就能学会。

事实证明，能够检索信息或回答简单问题，并不代表模型真正学会了上下文中的逻辑和知识。

真正的智能不仅仅是记忆的提取，更是对新环境的快速建模与适应。

上图清晰地展示了这种供需错配。

我们一直在优化模型利用预训练知识对提示词进行推理的能力，但现实世界需要的是模型从复杂的上下文里学习新知识并进行推理。

这就是上下文学习的鸿沟。

全新基准揭开模型能力的真实面纱

为了精准捕捉并量化这种能力，CL-bench经过严密设计。

研究团队动用了大量领域专家，耗时数千小时，构建了一个旨在考察模型现学现卖能力的测试体系。

为了确保模型无法作弊，也就是不能依靠预训练中记住的知识来答题，CL-bench采用了三种极为严格的数据构建策略。

专家们进行了大量的虚构创作。

他们可能会编写一套完全不存在的法律体系，包含虚构的判例和立法原则；或者设计一种全新的编程语言，拥有独特的语法结构。

在这些任务中，模型没有任何经验可循，必须完全依赖题目给出的文档。

对现有的真实内容进行实质性修改。

比如修改历史事件的进程，改变科学定义或数学常数，甚至篡改技术文档中的规格参数。

如果模型依然按照常识去回答，就会掉入陷阱，只有严格遵循当下上下文的模型才能得分。

引入极度长尾或新兴的专业知识。

这些内容要么是刚刚发布的尖端研究，要么是极其冷门的专业领域，确保大概率未被纳入模型的训练语料中。

在这些原则下，CL-bench将上下文分为四大类，覆盖了人类学习新知的核心场景。

第一类是领域知识推理。这要求模型像专业人士一样思考。

比如在金融、医疗、法律咨询等场景下，模型需要阅读特定的行业报告或案例背景，进行专业的分析和判断，建立起对该领域逻辑的理解。

第二类是规则系统应用。这更像是逻辑游戏或编程挑战。

上下文中可能给出一套全新的游戏机制、数学形式体系或技术标准。模型必须理解这些严密的规则网络，并在其中进行演绎推理。

第三类是程序性任务执行。这是职场中最常见的能力。

面对一份复杂的产品手册、软件文档或工作流规范，模型需要按步骤执行操作，进行故障排查或流程编排。这考验的是模型将陈述性知识转化为程序性操作的能力。

第四类是经验发现与模拟。这是最难的一类，也是最接近科学发现的过程。

模型会收到实验数据、观测记录或一个仿真环境的描述，它需要通过归纳推理，从数据中通过试错或观察，反推出背后支配系统运作的规律或物理定律。

每一个测试案例都配备了详尽的验证标准。

平均每个上下文包含63.2个验证点，细致到每一个步骤的正确性、每一个数据的准确性以及逻辑链条的完整性。

我们可以看上图这个具体的例子。

这是一个关于带电粒子在磁场中运动的物理分析任务，但其中的具体参数和环境设定是特定的。

模型不能照搬教科书上的通用公式，而必须根据文档中给出的特定数据和假设（比如磁场方向的特殊设定）来推导。

GPT-5.1在回答时虽然试图进行计算，但最终的评分显示它失败了，因为它忽略了关于磁场方向随时间线性增加这一关键的上下文设定，导致整个推理基础崩塌。

从统计数据看，这个基准测试的文本长度平均在10.4K token，最长达到65K，这正处于当前模型声称能够轻松处理的舒适区，因此测试结果的低分更显真实能力的匮乏。

顶尖模型在复杂适应性上的集体溃败

将十款处于行业前沿的大模型置于CL-bench的显微镜下时。

GPT-5.1（High）以23.7%的总体解决率位居榜首，但这仅仅意味着它做对了两成多的题目。

紧随其后的是Claude Opus 4.5 Thinking，得分为21.1%。

其他的模型，包括GPT-5.2、o3、Kimi K2、HY 2.0、Gemini 3 Pro等，大多集中在13%到18%的区间内。

即便是被称为推理怪兽的新一代模型，在面对真正需要现场学习的任务时，表现也远未达到实用的门槛。

所有模型在经验发现与模拟这一类别上都遭遇了滑铁卢。

这一类别的平均解决率仅有11.8%，比其他类别低了约6个百分点。

说明目前的AI非常擅长演绎推理，即根据给定的规则推导结果，但非常不擅长归纳推理，即从现象中总结规则。

要让模型像科学家一样去观察数据、发现定律，依然是极其困难的挑战。

不同模型在不同领域的偏科现象也十分有趣。虽然总体上差距不大，但在细分项上却各有千秋。

例如，HY 2.0在法律与监管子类别上表现惊人，解决了36.6%的任务，甚至超过了GPT-5.2和Claude Opus 4.5。该模型在处理条文类、规则类文本时具有特定的架构优势或训练倾向。

右下角的区域普遍颜色较浅，那里对应的是实验数据、观测数据和模拟环境。

这块认知死角是全行业的通病，无论模型的参数量有多大，只要涉及从数据中提取新知，它们就会变得犹豫不决或胡言乱语。

另一个值得注意的现象是，任务的难度并不完全取决于知识领域，而取决于知识的组织形式。

同属法律领域，法律咨询任务要求模型像律师一样综合案情和法理进行推理，模型的表现相对较差；而法律与监管任务侧重于像法官一样根据明确的条款进行裁决，模型的表现就相对较好。

模型更善于执行明确的规则，而在需要综合判断和灵活运用知识时显得力不从心。

这种差异告诉我们，在评估模型时，不能简单地说它懂法律或不懂法律，而要看它是在机械地应用条文，还是真正理解了法律背后的逻辑体系。

认知瓶颈背后的深度归因

为什么模型会在上下文学习上表现如此糟糕？

通过对错误案例的深度解剖，研究者们发现了一些共性的认知缺陷。

最主要的失败原因是对上下文的忽视和误用。

数据显示，超过60%的错误源于误用上下文，即模型读取了信息，但理解错了，或者把A条款用到了B场景上。

还有很大一部分错误是直接忽略上下文，模型似乎在阅读长文时会走神，漏掉关键的约束条件。

目前的注意力机制在处理长文本时，虽然能看见所有字，但无法像人类一样精准地分配关注度给那些真正决定成败的细节。

从错误类型分布表中可以看到，几乎所有模型的上下文误用比例都居高不下。

这反驳了只要窗口足够大，模型就能理解一切的乐观看法。

即使在窗口范围内，模型的信息整合能力也是有限的。

另一个反直觉的发现是，增加推理计算量（即让模型多想一会儿）并不总是有效。

对于GPT-5.1来说，开启高推理模式确实能带来约2.5%的性能提升，特别是在管理学和实验数据分析这类需要深度思考的任务上。

但对于GPT-5.2和其他一些模型，增加推理时长反而可能导致性能下降。

这可能是因为模型在漫长的思维链中迷失了方向，或者是过度的推理导致了对原有简单指令的偏离。

上图展示了GPT-5.1在不同推理力度下的表现。

虽然红色柱子（高推理）普遍高于蓝色柱子（低推理），但增幅微弱，且在某些领域几乎持平。说明单纯堆砌推理算力并不是解决上下文学习难题的银弹。

更令人担忧的是随着文本长度增加，模型性能的线性衰退。

尽管所有测试模型都宣称支持超长上下文，但在实际测试中，一旦输入长度超过15K token，解决率就开始稳步下滑。

到了120K token以上，Claude Opus 4.5的解决率甚至暴跌了超过20%。

说明现有的长文本技术更多是解决了读进去的问题，还没有解决读得懂和记得住的问题。

长文档对于模型来说，依然是一场巨大的记忆与注意力考验。

这个趋势图是对当前长文本技术泡沫的一次有力戳破。

无论模型的架构多么先进，随着信息量的堆积，信噪比的下降必然导致理解能力的退化。

除了理解力，指令遵循能力的短板也是导致失败的重要原因。

在许多案例中，模型明明分析对了局势，却因为没有严格遵守输出格式，或者忽略了严禁使用未授权函数这样的禁令而丢分。

这个无人机物流的案例非常典型。

系统明确要求只能使用文档中提供的函数，且必须进行安全检查。

Gemini 3 Pro虽然正确识别出了用户请求的函数不存在，但在给出替代方案时，却因为忽略了文档中关于安全空域请求的强制性规定，漏掉了关键步骤。

它就像一个虽然指出了问题但给出了违规建议的操作员，在真实的高风险场景中，这种错误是致命的。

这项研究最终将我们引向了一个新的发展方向。

与其无休止地向模型灌输过时的静态知识，不如训练它如何快速适应新环境。

未来的训练数据不应只是百科全书，而应该包含更多阅读理解式的配对数据。

给一段复杂的陌生材料，逼迫模型从中学习并解决问题。

这种元能力的培养，才是通向通用人工智能的必经之路。

CL-bench像是一个风向标，告诉我们大模型的下一个进化阶段，不再是比拼谁背的书多，而是比拼谁学得快、用得活。

只有当模型能够面对一份完全陌生的文档，像人类专家一样从容地学习、推理并解决问题时，我们才能说，真正的智能时代已经到来。

原文链接：点击前往 >

文章作者：算泥

版权申明：文章来源于算泥。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/

{{likeNum}}

好文章，需要你的鼓励

相关阅读

热门活动

更多

PAGC 2026 | AI短剧出海峰会

广东省 · 广州市

出海星期五——DTC品牌跨境电商分享会 01期宠物经济篇

文章热榜

更多

「自然选择」融资3000万美元，阿里、蚂蚁布局AI陪伴

仅用一周时间，谷歌就让OpenAI认清现实

《2025年度中国独角兽企业》榜单： AI、机器人、空天经济成最大赢家

2026了，大厂们还在用撒钱这招搞AI

税务合规收紧，跨境卖家重新洗牌

热门报告

更多

《2025玄学应用增长密码Z世代下的神秘学》

《2025AI工具类应用市场洞察报告》

请前往扬帆出海小程序完成个人认证

认证通过后即可申请入驻

扫码添加小助手

微信扫描二维码，添加小助手
微信号：yfch103

扫码添加小助手

微信扫描二维码，添加小助手
微信号：yfch103

APP
小程序

微信公众号

微信小程序

扬帆出海APP

扬帆出海APP

微信
公众号

微信公众号

关注扬帆出海

专注服务互联网出海！

出海人
社群

微信公众号

扫码进群

与16万+出海人同行！