腾讯开源新版混元模型：AI Agent强化，超30种智能体指令

Hunyuan-A13B是腾讯开源的一个基于细粒度专家混合（MoE）架构的大型语言模型，拥有800亿参数，其中130亿参数处于激活状态。它在保持高性能的同时，实现了优秀的资源利用效率，适合在资源受限的环境中使用。

摘要

凭借130亿激活参数，在众多基准任务上展现出与更大模型相媲美的性能，同时推理效率高。支持快速思考模式，为简单任务提供高效解决方案；慢速思考模式则适用于复杂任务，能进行深入推理，提升准确性。

在数学领域的AIME2024、AIME2025测试中，分别获得87.3、76.8的高分，超越了DeepSeek-R1和OpenAI的o1模型。在科研、代码、推理等测试中，与DeepSeek-R1表现接近。

由1个共享专家和64个细粒度非共享专家组成，训练时共享专家始终激活，非共享专家中只有8个同时激活。采用SWiGLU，与Hunyuan-Large和Hunyuan-TurboS保持一致。

提供了基于TensorRT-LLM、vLLM、SGLang等框架的部署方法，并提供了相应的Docker镜像和部署指南。

腾讯开源了混元大模型的最新版本Hunyuan-A13B。

Hunyuan-A13B是一个专家混合模型，拥有800亿参数，其中130亿参数处于激活状态。支持快、慢两种思考模式：快速思维模式，提供简洁高效的输出，适用于高效、简单的日常任务；慢速思维模式，支持更深层次的推理步骤包含反思和回溯，生成更长的思维链，提升复杂任务的准确性。

值得一提的是，Hunyuan-A13B特意针对AI Agent进行了强化，打造了应对不同场景变化的 “自适应大脑”，设计超过30种智能体指令，并组合工具、动作、响应的格式变化，创造出20000 种格式组合。

开源地址：https://huggingface.co/tencent/Hunyuan-A13B-Instruct

github：https://github.com/Tencent-Hunyuan/Hunyuan-A13B?tab=readme-ov-file

根据腾讯公布的测试数据显示，在数学AIME2024、AIME2025测试中， Hunyuan-A13B分别拿下了87.3、76.8的高分，超过了DeepSeek-R1的79.8、70分，同时也大幅度超过了OpenAI的o1模型。

在科研、代码、推理的测试中，Hunyuan-A13B与DeepSeek-R1的测试结果几乎差不多。

而在Agent智能体BFCL-V3、ComplexBench、C-TurcBench测试中，Hunyuan-A13B分别拿下78.3、61.2、63.5的高分，全部大幅度超过了DeepSeek-R1的56.9、41.1、55.3。

在架构设计方面，Hunyuan-A13B 由 1 个共享专家和 64 个细粒度非共享专家组成，所有专家的中间维度相同。在训练阶段，共享专家始终处于激活状态，而非共享专家中只有 8 个会同时被激活。

为了进一步提升模型的性能，Hunyuan-A13B 在激活函数上采用了 SWiGLU，这与 Hunyuan-Large 和 Hunyuan-TurboS 保持一致。此外，模型在注意力层中引入了 Grouped-Query Attention显著提高了 KV 缓存的内存效率，使得 Hunyuan-A13B 在处理复杂任务时能够更加高效地利用计算资源。

在推理过程中，Hunyuan-A13B 还采用了双模式推理链框架，这一框架允许模型根据任务的复杂性和用户需求动态调整推理深度。

快速思考模式旨在为简单任务提供快速、高效的解决方案。在这种模式下，模型会生成简洁的输出，以最小的计算开销满足用户的需求。这种模式特别适合那些对速度要求较高的场景，例如，实时问答或简单的信息检索任务。通过快速思考模式，Hunyuan-A13B 能够在极短的时间内给出答案，来提高用户体验。

慢速思考模式，这种模式适用于更复杂的任务，如多步推理问题。在这种模式下，模型会进行更深入、更全面的推理过程，包括但不限于反思和回溯等步骤。这使得模型能够生成更长的推理链，从而提高在处理复杂问题时的准确性和鲁棒性。

在后训练阶段，Hunyuan-A13B 采用了结构化的多阶段方法，旨在全面提升模型在各个维度的性能。这一阶段包括推理导向的监督微调（SFT）和强化学习（RL）阶段，以及全场景监督微调和强化学习阶段。

在推理导向的 SFT 阶段，模型专注于加强在复杂推理导向任务方面的专业能力，例如，数学推理、逻辑推理、代码生成和科学分析等。这一阶段使用了精心策划的指令 - 响应数据集进行监督微调，这些数据集包含了明确的推理过程和详细的推理解决方案。

在强化学习阶段，模型进一步增强了推理能力。这一阶段利用了两种类型的奖励机制：结果奖励模型和沙箱反馈。结果奖励模型是一种轻量级的语言模型基础验证器，用于评估生成的最终答案与参考答案之间的一致性，并据此给出二元奖励。

沙箱反馈则通过一个多语言代码沙箱来提供实际的代码执行结果，从而为模型提供更准确的反馈。这些奖励机制的结合，使得模型能够在推理过程中不断优化和改进。

在全场景监督微调阶段，模型的适应性得到了进一步的拓宽。这一阶段涉及在多样化指令 - 响应数据集上的监督微调，旨在提高模型在创意写作、基于知识的问答、指令遵循以及多轮对话任务等多样化实际场景中的表现。

与推理导向的微调阶段不同，这一阶段的强化学习采用了双重信号优化方法，不仅评估最终输出的正确性，还通过一个大型语言模型作为智能体评估器来评估风格质量、连贯性和适应性。这种全面的评估策略使得模型能够在提高准确性的同时，增强在不同应用场景中的可用性。

为了进一步提升模型在特定领域的表现，在全场景强化学习阶段Hunyuan-A13B还引入了多个专门的奖励服务和数据构建流程。这些服务和流程针对不同的能力领域进行了优化，确保模型在各个领域都能达到高标准的表现。例如，在文本理解领域，模型不仅需要能够准确回答问题，还需要在风格和连贯性上符合语言习惯。为此，研究人员设计了专门的一致性模型和比较性 GRM，以确保模型输出在客观和主观任务中都能保持高质量。

在智能体任务中，模型需要能够有效地调用工具，并根据工具的反馈进行合理的决策。为此，研究人员构建了基于规则的奖励机制，以确保模型在调用工具时能够遵循正确的格式和逻辑。这种奖励机制的引入，使得模型在智能体任务中能够更加高效地完成任务，并且在多轮对话中保持良好的连贯性和一致性。

在复杂指令任务中，模型需要能够精确地理解和执行多方面的指令。为此，研究人员将约束提取和满足工具与通用批评和奖励模型相结合，确保模型在执行复杂指令时能够严格遵循指令要求，并且在多步推理过程中保持逻辑连贯性。

在安全领域，模型需要能够识别和避免潜在的风险和不当内容。为此，研究人员使用分类器和拒绝启发式方法来识别安全响应对，并将安全对齐直接整合到偏好数据集中。这种整合方法使得模型在生成内容时能够更加注重安全性，从而降低风险。

原文链接：点击前往 >

文章作者：AIGC开放社区

版权申明：文章来源于AIGC开放社区。该文观点仅代表作者本人，扬帆出海平台仅提供信息存储空间服务，不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任，如若转载请联系原文作者。更多资讯关注扬帆出海官网：https://www.yfchuhai.com/