{{!completeInfo?'请完善个人信息':''}}
国产大模型MiniMax M3正式发布,在编程、百万上下文和原生多模态三条线上达到前沿水平,即将开源。采用全新稀疏注意力架构MSA,编程能力超越GPT-5.5,支持图片视频输入及电脑操作。
MiniMax M3 今天发布了。

一个国产模型,同时在编程、百万上下文和原生多模态三条线上都站到了前沿位置,而且即将开源。 原生多模态,支持图片和视频的输入,能操作电脑桌面,这三种能力是海外闭源前沿模型标配。M3 是国内第一个齐备这些要素的模型,也是目前唯一的开源模型。
M3 在编程和 Agent(智能体)评测中逼近甚至超过海外顶级闭源模型,用了一套全新的稀疏注意力架构 MSA 来解决超长上下文的计算瓶颈,又从训练开始就做原生多模态。
M3 团队丢给 M3 一篇 ICLR 2025 Outstanding Paper Award(杰出论文奖)获奖论文,Learning Dynamics of LLM Finetuning,让它独立复现。这篇论文研究大语言模型微调过程中的学习动力学。

M3 自主运行接近 12 小时,全程自主产出 18 次 commit(代码提交)与 23 张实验图表,成功跑通核心实验。它吻合了 SFT(监督微调)阶段的预测概率变化趋势,清晰观测到 DPO(直接偏好优化)实验重点讨论的 squeezing(挤压)效应,还顺利验证了原论文提出的 Extend 缓解方法。
这个过程里,多模态能力看懂论文里的曲线图、数据和公式,长上下文保证论文加代码加实验日志一次性进窗口,编程加 Agent 能力驱动长线程甚至并发执行。
FP8 矩阵乘(GEMM)是大模型推理中计算量最集中的环节之一,优化难度也最高。工程师必须同时处理数据排布、计算流水线调度、硬件特性适配等多层耦合问题。在 NVIDIA Hopper 架构 GPU 上手写一个生产级 FP8 GEMM kernel,通常需要资深团队 1 到 2 周的集中投入。

M3 的起点仅有一份任务描述、一个 benchmark(基准测试)评估脚本、一个无法直接运行的 Triton 骨架,没有任何 reference(参考)高性能实现可供参考。模型没法通过模仿已有方案走捷径,只能从基本原理出发自主探索优化路径。
约 24 小时的连续执行中,M3 完成 147 次 benchmark 提交、1959 次工具调用,完全自主走完从 baseline(基线)实现到生产级优化的全部路径,包括 baseline 实现、autotune(自动调优)配置生成、性能瓶颈诊断、CUDA Graph 集成、persistent kernel(持久内核)重写、host 端调度优化等,每一步都通过 benchmark 反馈自我验证,无需人工介入。
最终 M3 经过 6 轮标志性优化,将 Hopper FP8 硬件峰值利用率从首版 7.6% 推进至 71.3%,实现 9.4 倍加速。
值得关注的还有执行过程:除 Opus 4.7 和 M3 外,其余模型大多在前 30 次提交内不再取得新进展并主动退出。
M3 的最优解出现在第 145 次提交,在此之前模型经历了多个性能不再提升的平台期,但仍在继续尝试不同优化方向。MSA 的长上下文注意力分配机制在处理高密度、高度结构化的多次工具调用上下文时起到了关键作用。
CUDA 优化任务验证的是优化目标明确、反馈信号清晰的单一工程场景。真实研究工作往往没有这么清晰的反馈结构。
M3 团队在 PostTrainBench 上做了实测,给 M3 四个只完成了预训练的 Base 模型,让它 12 小时内自主完成数据合成、训练、评测、迭代的全部流程,最终让这些模型在数学推理(AIME2025)、工具调用(BFCL)、科学知识推理(GPQA Main)、基础算术推理(GSM8K)、代码生成(HumanEval)任务上具备基本能力。

整个数据合成到训练到评测到迭代的流程全程无人干预,Agent 需要自己决定合成什么样的数据、选择什么训练策略、如何根据评测结果调整下一轮方案。
M3 最终得分 0.37,略低于 Opus 4.7 的 0.42 和 GPT-5.5 的 0.39,但明显领先其余模型。
长上下文是大模型做复杂 Agent 任务的基础设施,但全注意力机制的计算复杂度随序列长度平方级增长,窗口一长就撑不住。
M3 没有在现有架构上缝缝补补,直接从最底层的注意力机制动刀,提出了 MSA(MiniMax Sparse Attention,稀疏注意力)。

MSA 的核心思路是在注意力计算前加一个初筛阶段,把 KV(键值对)分块筛选,避免全局计算。和 DSA、MoBA 等同类稀疏方案相比,MSA 能更精确地为 KV 分块,实现更高的有效上下文覆盖。
在算子层面,M3 采用了 KV outer gather Q 的方式,以 KV 块为外层聚合命中 query。每块只读一次,访存连续,在 M3 的 head 配比下计算访存比显著优于通行方法,比开源的 Flash-Sparse-Attention、flash-moba 快 4 倍以上。
简洁、可扩展、硬件友好,这些特点让 MSA 的理论收益真正落地。
100 万上下文下,M3 每 token 计算量仅为上代模型的 1/20。
prefilling(预填充)阶段加速超过 9 倍,decoding(解码)阶段加速超过 15 倍。而且在多个对照实验中,MSA 的绝大部分能力与全注意力打平。

API 最高支持 1M(百万)tokens 上下文窗口,保障至少 512K tokens 可用。MSA 让上下文成为又一个可以被 scale(规模扩展)的维度。
编程与 Agent 能力是 M3 重点提升的方向,在涵盖软件工程、终端执行等多个维度的国际权威评测中,M3 均达到国际领先水平。


在 SWE-Bench Pro 上,M3 超过 GPT-5.5 和 Gemini 3.1 Pro,接近 Opus 4.7。
在 SVG-Bench 上,M3 超过 Opus 4.7。
在 BrowseComp 智能体评测中,M3 以 83.5 分超过 Opus 4.7 的 79.3 分,展现出强大的自主浏览与信息检索能力。
在面向自主 Agent 的端到端评测框架 Claw-Eval 上,M3 拿到最高分。
光看 Benchmark 不够。当前大多数代码 Agent 的训练与评测,都建立在单轮任务的假设上。但真实使用场景里,用户往往会在同一个 Session(会话)中持续协作,不断澄清需求、调整方案、交叉派发任务,根据中间结果进行多轮迭代优化。
为了缩小 Benchmark 与真实体验之间的差距,M3 构建了交互式用户模拟器框架。它模拟真实开发者在协作中的行为模式,包括需求补充、方案讨论、反馈修正、连续任务切换以及复杂项目迭代,让 Agent 从被动执行指令变成主动与用户协同完成任务。
下一代 Agent Coding 比的不只是代码生成,更要比长期协作能力、规划能力以及人与 Agent 的协同效率。
M3 把对编程和 Agent 真正关键的数据 Scale up,目标是在真实研发流程中成为开发者可靠的协作伙伴,写出的代码目标是直接可交付,告别能跑但需要人改的尴尬。
M3 是一个从 Step 0 开始进行多模态混合训练的模型。这条原生多模态路线能让不同模态数据的语义空间更天然、更高度的融合。
在数据配比和构成上,M3 团队的大量实验显示,Interleaved data(交错数据)对模型性能带来的提升,比一般认为的更加关键。
所谓交错数据,就是文本和图像或其他模态在序列中交替自然排列的数据。这类数据对于整体训练数据的规模扩展也很重要,跟单纯叠加图像数据的方式相比,交错排列能让模型学到模态之间更细粒度的关联。
为此,M3 重构了整套数据管线,将预训练数据 Token 规模提升至 100 万亿量级。从训练第一天起就同时吃进文本和视觉数据,多模态是刻在模型骨子里的原生能力,告别后期贴补丁的方式。
在 OmniDocBench 多模态文档理解测试集上,M3 得分超过 Gemini 3.1 Pro。M3 支持图片和视频输入,还能操作电脑桌面,具备 Computer Use(计算机使用)能力。
随着 M3 发布,MiniMax Code 也迎来更新。
作为专为 M3 设计、并与 M3 一起训练的 Agent 产品,MiniMax Code 能充分发挥 M3 在长上下文、编程与 Agent、原生多模态方面的能力,是搭配 M3 的首选 Agent。
在长程复杂任务上,MiniMax Code 的 Agent Team 可以将大型任务拆解为多阶段、可并发、可动态调整的 Workflow(工作流),由 Agent 集群协作推进。
通过 Producer(生产者)加 Verifier(验证者)的对抗式 Harness(脚手架)循环,Agent Team 能在执行过程中持续产出、反思和修正,可自主运行数天无需人工干预。
得益于 M3 的原生多模态能力,MiniMax Code 具备 Computer Use 能力。用户可以在手机上说"帮我打开本地 ERP 客户端,按这份 Excel 批量录入发票信息",MiniMax Code 会自动在电脑端完成跨应用、跨文件、跨系统的操作。
MiniMax Code 是基于社区出色的开源项目 OpenCode 和 Pi Agent 构建的 Harness,团队后续计划开源该项目回馈社区。
MiniMax Token Plan 同期校准三档配置:

按相同价格算,约是 Claude 订阅的 15 倍用量。老用户原有套餐价格继续保留,除了 M2 之外也可以根据相应价格变换使用 M3。
API 方面,M3 按不同上下文长度分两档计价,同时支持两种思考模式:thinking 模式适合复杂推理、Agentic 任务与长程协作,non-thinking 模式响应更快,适合对话、代码补全等延迟敏感场景。两种模式共享同一套定价,可在请求时按需切换。
M3 API 现已开放使用,即将在 HuggingFace 和 GitHub 上完成开源,更新模型的技术报告以及开源对应的模型权重,支持私有集群部署和微调。
原文链接:点击前往 >
文章作者:AIGC开放社区
版权申明:文章来源于AIGC开放社区。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励
已关注
关注