小红书开源首个大模型，11万亿非合成训练数据

小红书开源了首个大模型dots.llm1，这是一个1420亿参数的专家混合模型（MoE），在推理时仅激活140亿参数，能有效降低成本且保持高性能。

摘要

dots.llm1采用单向解码器Transformer架构，将前馈网络替换为MoE。MoE由128个路由专家和2个共享专家组成，每个专家网络是两层前馈网络，使用SwiGLU激活函数。处理每个输入标记时，通过路由机制激活8个专家网络。此外，其注意力层采用多头注意力机制（MHA）并引入RMSNorm归一化操作，还引入无辅助损失的负载平衡策略解决MoE架构中负载不平衡问题。

在训练过程中，dots.llm1采用了AdamW优化器，通过引入权重衰减防止模型过拟合，同时采用梯度裁剪技术避免梯度爆炸问题，进一步提高模型性能和效率。

dots.llm1使用11.2万亿token非合成数据，构建三级数据处理流水线。第一阶段文档准备中，利用多种技术进行过滤、提取、去重等操作，并控制中英文数据比例；第二阶段规则处理通过行级去重、启发式过滤、模糊去重等剔除低质内容；第三阶段模型处理运用分类器等手段保留高价值内容、平衡数据分布。经处理的数据在基准测试中表现优于当前SOTA开源数据。

小红书开源了dots.llm1每1万亿token的中间训练检查点，为大模型的学习动态研究提供了宝贵见解，有助于促进学术研究。

国内著名社交平台小红书，开源了首个大模型——dots.llm1。

dots.llm1是一个1420亿参数的专家混合模型（MoE），在推理过程中仅激活140亿参数，能保持高性能的同时大幅度降低训练和推理成本。

dots.llm1最大特色是使用了11.2万亿token的非合成高质量训练数据，这在现阶段的开源大模型中非常罕见，看来小红书也得益于自己庞大的语料库出手就是阔啊。

所以，在中文测试中dots.llm1的性能非常强，以91.3的平均分超过了DeepSeek开源的V2、V3和阿里开源的Qwen2.5 32B和72B。

开源地址：https://huggingface.co/rednote-hilab/dots.llm1.base/tree/main

dots.llm1架构简单介绍

dots.llm1使用了单向解码器Transformer架构，但把前馈网络替换为MoE。在传统的Transformer架构中，每一层的前馈网络是密集连接的，这意味着每一层都会对输入的所有标记进行计算。在处理大规模数据时会消耗巨大的算力。

而MoE将模型分为多个专家网络，每个专家网络专注于输入数据的不同方面。在推理过程中，并不激活所有的专家网络，而是根据输入标记的特性，动态地选择一小部分专家网络进行计算。这种稀疏激活的方式极大减少了算力的需求，同时保持了模型的高性能。

dots.llm1的MoE由128个路由专家和2个共享专家组成。每个专家网络是一个两层的前馈网络，使用了SwiGLU激活函数。SwiGLU是一种高效的激活函数，它结合了门控机制和非线性激活，能够更好地捕捉数据中的复杂关系。

在每个输入标记的处理过程中，dots.llm1会通过一个路由机制选择出6个最相关的专家网络，加上2个共享专家，总共激活8个专家网络。这种选择机制是动态的，会根据输入标记的特性来决定哪些专家网络最适合处理当前的标记。

除了MoE模块的设计，dots.llm1在注意力层也进行了优化。采用了经典的多头注意力机制（MHA），这是一种广泛应用于Transformer架构中的注意力机制。

dots.llm1在MHA的基础上引入了RMSNorm归一化操作。RMSNorm是一种改进的归一化方法，通过计算输入的均方根值来进行归一化，从而避免了输入值过大或过小对模型训练的影响。这种归一化操作在多头注意力机制中尤为重要，因为注意力机制的输出是多个头的加权和，如果没有适当的归一化，很容易出现数值不稳定的情况。通过引入RMSNorm，dots.llm1能够更好地控制注意力机制的输出，从而提高模型的稳定性和性能。