
{{!completeInfo?'请完善个人信息':''}}
8 月 5 日,阿里通义千问团队开源 20 B 文生图模型 Qwen-Image,专攻中文复杂排版与高精度文本渲染,9 月将同步上线魔搭社区。
摘要
Qwen-Image 与万相(Wan)系列错位——前者聚焦“文字精准的静态海报”,后者主攻“视频生成/编辑”,二者互补而非竞争。
阿里迄今已开源 200+ 模型(0.5 B–110 B),覆盖文本、图像、视频、3D、语音、代码等全模态,并全部采用 Apache 2.0 协议。
除明星系列外,还有 WebSailor(对标 OpenAI DeepResearch 的联网推理智能体)、ThinkSound(带 Chain-of-Thought 的视频配音音频模型)、AMAP-ML(高德地图空间智能模型)等垂直工具。
在全球巨头趋向闭源的背景下,阿里坚持“真开源”,完整放出权重、推理代码与训练数据,成为当前最激进的开源大模型推手。
8月5日,阿里巴巴通义千问团队今天正式开源了Qwen-Image文生图模型,该模型采用20B参数的MMDiT主干、7B参数的VLM文本编码器和127M参数的VAE架构,专门针对中文复杂排版与高精度图像编辑进行优化。
新模型一出,开发者们一边惊叹“海报自由终于实现了”,一边也开始疑惑:“开源了Qwen-Image,是不是和万相系列模型功能重复了?”
实际上,在Qwen-Image的技术报告中,Qwen团队明确阐述了与Wan系列的差异定位。Qwen-Image专门针对图像中的文字渲染进行了特定优化,尤其擅长海报设计等需要精确文本表现的场景,而Wan系列则采用更全面均衡的技术路线,重点覆盖视频生成和编辑能力。
更有趣的是,这次发布让不少人意识到,除了广为人知的Qwen系列,阿里竟然还有如此庞大的模型家族。据统计,阿里迄今已开源200余款模型,覆盖文本、视觉、语音、视频、3D、代码等全模态领域,参数规模从0.5B到110B不等。
这些模型并非各自为政,而是体现了清晰的分工架构。Qwen团队作为核心力量,不仅包含语言模型的各个版本,还推出了专门的推理模型;图像和视频模型主要由Wan团队负责;而类似于OpenAI DeepResearch功能的WebSearch模型则来自AlibabaLab。
那么除了已经广受关注的Qwen系列,阿里还有哪些值得开发者关注的开源珍品?让我们来逐一盘点。
一、Wan万相系列
通义万相(Wan)同样是阿里通义实验室研发的视觉生成模型,专门负责视觉内容生成任务。该系列模型覆盖文生图、图生图、文生视频、图生视频、首尾帧生视频等多种生成能力,主要应用场景包括影视创作、动画设计、广告设计等领域。
2024年2月,通义万相视频生成模型正式开源,成为业界首个开源的大规模视频生成模型,这一举措直接降低了企业和开发者进入视频生成领域的门槛。开源后的表现也相当亮眼——迅速登顶Hugging Face模型热榜和模型空间榜两大榜单,成为当时全球开源社区最受欢迎的大模型。
Wan系列的开源历程可以追溯到2024年2月,当时通义万相视频生成模型正式开源,成为业界首批开源的视频生成模型之一。此后该系列保持了较快的迭代节奏,目前在HuggingFace中开源了20款模型,覆盖各个参数和类型。
所有开源版本均采用Apache 2.0协议,开发者可以在GitHub、HuggingFace和魔搭社区等平台获取完整的推理代码和模型权重。根据公开数据,截至目前Wan系列模型总下载量已超过350万次,GitHub项目获得超过13k星标。
从刚刚发布的Qwen-Image技术报告来看,阿里在AI模型布局上展现了更加清晰的分工策略。虽然同属通义大家族,但Qwen-Image与通义万相Wan系列走的是完全不同的技术路线。
Qwen-Image的核心亮点在于“复杂文本渲染”能力,特别是对中文文字的精准处理。从技术架构上看,它采用了20B参数的MMDiT主干、7B参数的VLM文本编码器和127M参数的VAE,并设计了专门的MSRoPE(多模态可扩展旋转位置编码)来处理图像和文本的联合位置信息。这种设计让模型能够在生成的图像中准确渲染多行文本、段落级语义和精细细节。
相比之下,通义万相Wan系列定位为“视频为中心”的视觉生成基座,采用时空统一的扩散Transformer框架,同时覆盖文生图、文生视频、图生视频等八类任务,产品矩阵从1.3B到27B参数规模不等。虽然Wan也具备文生图能力,但其重心明显在视频生成和编辑上。
从实际应用角度看,两个系列形成了很好的互补关系。Qwen-Image更适合需要精确文字渲染的场景,比如海报设计、文档生成、多语言内容创作等,特别是涉及中文复杂排版的专业应用。而Wan系列则更适合视频内容创作、动画制作、影视后期等需要时序一致性的场景。
值得注意的是,虽然都属于通义大家族,但Qwen-Image由通义千问团队开发,而通义万相Wan则由独立的通义万相实验室主导。该团队专注于视觉生成技术。从产品策略来看,Wan系列采用了相对激进的开源策略,不仅开源模型权重,还提供完整的推理代码,这在一定程度上降低了企业和开发者使用视频生成技术的门槛。
与阿里内部的其他模型相比,Wan系列专门负责视觉生成领域,与主要处理文本和多模态理解的Qwen系列形成了功能上的互补。
二、Alibaba-NLP团队的Web系列
如果说通义万相Wan系列还算是备受关注的明星模型,那么WebSailor系列简直可以称为“沧海遗珠”。
WebSailor的定位直指OpenAI的DeepResearch功能,专门解决复杂网络检索和推理任务。与传统的搜索引擎或简单问答系统不同,WebSailor面对的是那些需要跨多个网页收集线索、进行多步推理才能解答的高难度问题。
比如“找一首与南美某首都密切相关的乐曲,其歌词作者在21世纪初获颁当地荣誉称号,其旋律创作者曾就读于哥伦比亚西部的一所著名艺术学院。这首乐曲叫什么?”这类问题不仅考验AI的信息检索能力,更考验其逻辑推理和信息整合能力。
在今年4月OpenAI发布的BrowseComp评测集上,WebSailor交出了令人惊艳的成绩单。这个包含1266个高难度问题的评测集被业界公认为最具挑战性的网络智能体基准之一,而WebSailor不仅在开源模型中实现了断层领先,甚至超越了多个闭源模型,仅次于OpenAI的DeepResearch。
WebSailor的硬实力,来源于它背后的团队:Alibaba-NLP。它并不隶属于通义,研究力量主要分布在达摩院语言技术实验室和通义实验室两条线,前者专注于低资源多语言理解与生成、AliceMind系列模型等基础研究,后者则由孙常龙带领的NLP应用算法团队主导,专注于大模型应用落地,包括RAG、Agent等前沿领域。
这两大实验室在学术界同样表现不俗,近三年在ACL/EMNLP/AAAI等顶级会议累计发表论文250余篇,在ACL 2023获得杰出论文奖2次,在SemEval 22/23连续获得最佳论文奖。这种深厚的学术底蕴为WebSailor等应用型模型提供了坚实的理论基础。
目前,Alibaba-NLP已经发布了48款开源模型(比Wan还要多),包括WebWalker、WebDancer和WebSailor三个检索和推理智能体,并全部斩获SOTA成绩,形成了完整的网络智能体产品矩阵。
三、其他零散的模型
除了已经比较成体系的模型系列以外,还有一些单个的模型,比如来自通义Lab的ThinkSound,它并不属于Qwen系列,而是一个音频模型,它是一个“带脑子”的音频生成模型——它先像人类音效师一样“想清楚”画面里该有什么声音,再一次性合成高保真、零错位的空间音频。
ThinkSound首次把 Chain-of-Thought 引入声音生成:先用多模态大语言模型逐帧推理“画面里发生了什么、该有什么声音、音量方位如何”,再交给统一的扩散网络一次性合成 48 kHz、立体声、带空间定位的高保真波形,真正做到“看懂画面再配音”。模型支持 Any2Audio——视频、纯文本、音频片段或任意混合输入均可输出同步音轨;也支持对象级交互编辑,用户点画面里的猫或输入“让雨声大一点”即可局部重生成。
技术栈上,ThinkSound 提供 1.3 B/724 M/533 M 三个量级,全部 Apache 2.0 协议,单张 RTX 4090 就能给 720 P 视频实时配音。官方在 VGGSound、MovieGen Audio Bench 等公开基准上领先现有方案 15 % 以上,并发布了 2531.8 小时的 AudioCoT 训练集,含人工校验的“事件-声源-物理属性-时序”四元组标注,覆盖动物、机械、城市、自然等 1000 + 场景。
另外还有一些更加垂直的模型,比如AMAP-ML团队推出的地图模型。AMAP-ML 是高德地图 AI 中台面向“空间智能”打造的开源模型与工具链,2025 年 7 月在 GitHub 一次性放出 14 个仓库。核心目标是把高德 20 年积累的路网、街景、交通、POI、定位数据,蒸馏成可即插即用的空间大模型。
目前公开的三条主线:RealQA 用多模态大模型给图像质量与美感打分,FLUX-Text 支持 512×512 起的高保真场景文字编辑,海报、路牌一键改字;UniVG-R1 则是推理引导的视觉定位模型,一句话即可在复杂场景中精准框出目标。
底层还提供时空向量底座,把道路、建筑、实时车流全部向量化,封装成 RESTful API,汽车、机器人、AR 眼镜均可调用。官方已与多家车企座舱、低空飞行器完成落地,实现“AMAP-AI Inside”。整站 Apache 2.0 协议,单卡 4090 即可跑通,让任何开发者都能在自己的硬件里拥有“高德级”空间感知能力。
盘点完阿里的AI模型家族,最令人印象深刻的并非某个单一模型的性能突破,而是其坚定不移的开源策略。从Qwen系列到Wan系列,再到相对低调的WebSailor,几乎所有核心技术都选择了完全开源,不同于一些公司仅开源部分能力或附加诸多限制条件,阿里各个技术团队都在践行真正的开源准则。
这种“真开源”的战略,似乎已经贯彻到了整个阿里巴巴,在Meta逐步放弃Llama系列模型的当下,阿里成了全球范围内,最拥护开源战略的巨头公司。
原文链接:点击前往 >
文章作者:硅星人Pro
版权申明:文章来源于硅星人Pro。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励