扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

美团 8 月 31 日发布 5600 亿参数开源大模型 LongCat-Flash,并以 MIT 许可证全量开源,配套官网与部署指南。

摘要

首创“零计算专家机制”,推理时仅激活 186–313 亿参数,平均 270 亿,推理速度 >100 token/s,兼顾性能与成本。

双重注意力 + Shortcut-MoE 架构、模型增长初始化、梯度平衡与优化器定制,使得在数万张加速卡上训练 560B 模型仍稳定无事故。

通用、数学、指令跟随均处第一梯队;在代理工具基准 τ²-Bench 与 VitaBench 上大幅领先,凸显真实业务落地能力,同时安全评测名列前茅。

中国首个 560B 级开源 MoE 模型,为“高效大模型”提供新范式;上线即登 GitHub 热榜,降低企业与开发者使用门槛,推动 AI 生态共建。

8月31日,我们印象中做外卖的公司——美团(Meituan),扔出了一颗重磅炸弹。他们正式发布了一款名为LongCat-Flash的模型。一个拥有5600亿总参数的庞然大物,一家外卖巨头,一出手就是王炸。

图片

LongCat-Flash不仅仅是参数量大,它背后那套创新的动态计算机制和高效的训练推理架构,给整个行业带来了全新的解题思路。

巨无霸的身材,却有颗精打细算的心

LongCat-Flash参数规模高达5600亿,听起来就非常“耗电”。但它的高明之处在于,你不需要在每次问答时都调动这5600亿个“大脑神经元”。通过一套创新的动态计算机制,在实际处理你的问题时,它只会激活其中186亿到313亿的参数,平均下来也就270亿左右。

这是什么概念呢?就好比你拥有一个由5600位专家组成的智囊团,但每次开会解决问题,你只需要根据议题的难度,请来最相关的十几位或几十位专家就够了。这样一来,既保证了问题的解决质量,又极大地节省了开会成本。

这个设计的核心,被美团官方称为“零计算专家机制”(Zero-Computation Experts Mechanism)。它允许模型自己判断每个词(token)的重要性。遇到简单的、不那么关键的词,模型就把它交给“零计算专家”处理,几乎不消耗计算资源,就像是前台收发一下文件;而遇到复杂的、关键的词,模型则会唤醒相应的“领域专家”网络,进行深度思考和处理。这种能屈能伸、张弛有度的设计,让LongCat-Flash实现了超过每秒100个token的惊人推理速度,在性能和效率之间找到了一个堪称完美的平衡点。

驯服这头“巨兽”的独门秘籍

要打造并成功训练一个5600亿参数的模型,其难度不亚于在狂风中建造一座摩天大楼,任何一个环节的疏忽都可能导致整个工程的崩塌。美团的LongCat团队显然是有备而来,他们拿出了一整套精妙绝伦的“施工方案”。

图片

首先,在架构上,LongCat-Flash就显得与众不同。它采用了“双重注意力块设计”,每一层网络里都塞了两个注意力机制,还巧妙地结合了前馈神经网络(FFN, 前馈神经网络)和混合专家(MoE, 混合专家)结构。更绝的是,他们引入了一种叫做“快捷连接混合专家设计”(Shortcut-connected MoE, ScMoE)的创新。我们知道,当专家数量多起来,专家之间的“沟通成本”会急剧上升,成为性能的瓶颈。ScMoE设计就像是给专家们开通了VIP通道,大大提升了沟通效率,使得在数万个加速器上进行大规模训练成为可能。

其次,在训练策略上,他们没有采用传统的“从零开始”的蛮力方法。而是用了一种更聪明的“模型增长初始化机制”(Model-Growth Initialization Mechanism)。简单来说,就是先训练一个规模小一半的模型,等这个“小号”模型训练得差不多了,再把它作为地基,通过堆叠的方式来初始化最终的“大号”模型。事实证明,站在“巨人”的肩膀上,确实能看得更远,这种方式为最终模型的性能打下了坚实的基础。

为了保证这个庞然大物在长达数月的训练过程中不“发脾气”(比如出现损失爆炸),团队还集成了一整套“维稳”技术,包括“原则性路由器梯度平衡”来协调专家们的工作量,“隐藏z损失组件”来防止某些神经元过于兴奋,还有专门为模型架构定制的优化器配置。这些措施确保了LongCat-Flash的训练过程异常平稳,没有出现任何不可恢复的重大事故。

模型多项测评遥遥领先

好了,说了这么多精巧的设计和理论,LongCat-Flash的实战能力究竟如何?美团团队把它和当前世界上最顶尖的一批模型,放在同一个擂台上进行了全方位的严格测试。

图片

我们先来看看基本参数的对比。

图片

数据来源:LongCat-Flash技术报告

接下来是硬碰硬的性能对决。在通用知识、语言理解等传统强项上,LongCat-Flash表现稳健,与一众顶级模型打得有来有回,稳稳地站在了第一梯队。

图片

数据来源:LongCat-Flash技术报告

在指令跟随能力,也就是“听话”程度上,LongCat-Flash展现出了全面的领先优势,尤其是在两个新的、更具挑战性的基准测试COLLIE和Meeseeks-zh上,分数都名列前茅。

图片

数据来源:LongCat-Flash技术报告

数学推理能力是检验模型逻辑思维的试金石,在这方面,LongCat-Flash同样表现不俗。

图片

数据来源:LongCat-Flash技术报告,*表示数据来自其他公开报告

真正让LongCat-Flash脱颖而出,展现其“杀手锏”级别的能力的,是在代理工具使用(Agent)方面的测试。这考验的是模型理解并操作复杂工具来完成现实世界任务的能力,比如帮你预订机票、管理电信业务等。

图片

数据来源:LongCat-Flash技术报告,*表示数据来自其他公开报告

从数据中可以清晰地看到,在τ²-Bench电信领域的测试中,LongCat-Flash以73.68的平均分一骑绝尘。在另一个专门为真实世界商业场景设计的基准测试VitaBench上,它更是以24.30的平均分夺魁。这充分证明了美团在训练模型时,并不仅仅是为了刷榜,而是真正瞄准了AI在实际业务场景中的落地应用,这或许也与它自身的业务背景息息相关。

同时,在安全性能方面,LongCat-Flash也交出了一份优秀的答卷,在有害内容避免和犯罪内容预防等关键维度上均名列前茅,体现了团队在负责任AI方面的努力。

图片

数据来源:LongCat-Flash技术报告

不仅是“技术宅”,更是“社区贡献者”

美团发布LongCat-Flash时,也展现了其开放和拥抱社区的姿态。

他们选择了非常宽松的MIT(麻省理工学院)许可证来开源模型,这意味着无论是学术研究者还是商业开发者,都可以自由地使用、修改和分发这个强大的模型。这一举动,无疑为整个AI开源生态注入了新的活力。模型发布后,在代码托管平台GitHub上迅速获得了社区的广泛关注。

此外,他们还上线了官方体验网站(https://longcat.ai),让普通用户也能亲身感受LongCat-Flash的魅力。同时,团队提供了详尽的部署指南和技术支持,大大降低了开发者和企业的使用门槛。

LongCat-Flash的发布,是中国在大型语言模型领域的一次重要亮剑。也为整个行业提供了一个关于“效率”的全新范本。

原文链接:点击前往 >

文章作者:算泥

版权申明:文章来源于算泥。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch01
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch01
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与16万+出海人同行!