扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

阿里凌晨开源 Qwen3-30B-A3B-Thinking-2507,是 Qwen3 家族最新“思考”模型,重点强化了推理深度与质量。

摘要

在 AIME25 数学、LiveCodeBench 编程、GPQA 复杂问答、Agent 智能体等多维度基准上,大幅超越自家旧版及谷歌 Gemini-2.5-Flash-Thinking。

总参 30.5B、仅激活 3.3B,可在 20 GB 内本地部署;原生 256 K 上下文,可扩展至 1 M token,适合超长复杂任务。

官方推荐搭配 Qwen-Agent,通过 MCP 配置即可快速调用工具;已集成到 transformers、sglang、vLLM 等主流框架,并给出最佳采样/输出长度实践。

网友盛赞其“小体量、大能量”,认为思考模式带来质变;同时期待后续加入多模态与音视频长转录功能。

今天凌晨,阿里巴巴开源了Qwen3家族最新模型Qwen3-30B-A3B-Thinking-2507

2507与之前阿里开源的Qwen3-30B-A3B-ThinkingQwen3-235B-A22B-Thinking相比,在Agent智能体、AIME25数学、LiveCodeBench编程、GPQA解决复杂能力等方面,性能全部实现大幅度提升。

同时,2507也超过了谷歌的最新小参数模型Gemini-2.5-Flash-Thinking

图片

开源地址:https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507

https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507

对于阿里的新模型,网友表示,疯狂优秀的本地模型,绝对是我能在 20GB 以内装下的最佳选择。思考模式真的带来了天壤之别,恭喜你们,太给力了!

图片

对于这么小的一个模型而言,它在各方面的性能提升都令人印象深刻。

图片

不错,性能很强。现在只需要融合多模态能力,并支持 8 小时的音频和视频转录等功能就更好了。

图片

干得漂亮,各位。真难以想象完成这项工作付出了多少努力,那些不眠之夜和全神贯注的时刻。

图片

Qwen 团队的工作令人赞叹!Qwen3-30B-A3B-Thinking-2507模型在推理能力上的提升以及超大的上下文窗口具有颠覆性意义,为复杂问题的解决开辟了令人期待的新可能。期待探索它的潜力!

图片

干的非常好,Qwen做的很棒。

图片

Qwen3-30B-A3B-Thinking-2507总参数量达到 305 亿,其中激活的参数量为 33亿,非嵌入参数量为 299 亿。该模型包含 48层,采用 Grouped Query Attention机制,的注意力头数为 32KV 的注意力头数为 4

此外,它还具备 128 个专家,其中激活的专家数量为8。原生支持256K上下文,但通过扩展可增加至100万。

在性能方面,Qwen3-30B-A3B-Thinking-2507相比其他模型在多个任务上都有出色表现。例如,在知识类的 MMLU-Pro 任务中得分为 80.9MMLU-Redux91.4GPQA73.4SuperGPQA56.8;在推理类的AIME25任务中得分为85.0HMMT25为71.4LiveBench 20241125  76.8

图片

在编码类的LiveCodeBench v625.02 - 25.05)任务中得分为66.0CFEval  2044OJBench  25.1;在对齐类的IFEval 任务中得分为88.9Arena-Hard v2  56.0Creative Writing v384.4WritingBench85.0

Agent智能体类的BFCL - v3 任务中得分为72.4TAU1 - Retail 67.8TAU1 - Airline48.0TAU2 - Retail  58.8TAU2 - Airline  58.0TAU2 - Telecom  26.3

在多语言类的 MultiIF 任务中得分为 76.4MMLU-ProX  76.4INCLUDE 74.4PolyMATH52.6

Qwen3-30B-A3B-Thinking-2507在工具调用能力方面表现出色,推荐使用 Qwen - Agent 来充分发挥其代理能力,Qwen - Agent 内部封装了工具调用模板和工具调用解析器,大大降低了编码复杂性。可以通过 MCP 配置文件、Qwen - Agent 的集成工具或自行集成其他工具来定义可用工具。

为了达到最佳性能,建议采用这些设置:在采样参数方面,建议使用温度为0.6TopP  0.95TopK20MinP0,对于支持的框架,还可以在02之间调整 presence_penalty 参数以减少无休止的重复,但使用较高值可能会偶尔导致语言混合和模型性能略有下降;

在输出长度方面,建议大多数查询使用 32768token的输出长度,对于高度复杂问题如数学和编程竞赛的基准测试,建议将最大输出长度设置为 81920 token,为模型提供足够的空间来生成详细全面的回答,从而提升整体性能。

原文链接:点击前往 >

文章作者:AIGC开放社区

版权申明:文章来源于AIGC开放社区。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch24
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与10万+出海人同行!