{{!completeInfo?'请完善个人信息':''}}
单模型、单卡、秒级完成文本/单图/多视图/视频→可漫游3D世界的端到端生成,首次把多模态输入与点云、深度、相机参数、法线、3D高斯点等全要素输出整合进同一Transformer。
摘要
相机位姿、内参、深度图被压缩成Token并与视觉特征对齐,可插拔使用;无先验时仍可靠视觉推理,有先验时7-Scenes点云误差再降58%。
共享主干+专用DPT头一次性回归所有3D表示,任务互补、数据自洽,避免传统多模型级联的信息损耗。
按“先验感知→法线→3DGS”任务顺序、真实+合成数据混合到纯高质量合成微调、低分辨率到高分辨率渐进预热,实现稳定多任务协同。
在7-Scenes、DTU、RealEstate10K、ScanNet等基准上,点云、相机姿态、深度、法线、新视角合成五项指标均超专用最强模型,零样本跨域鲁棒,开源即插即用。
腾讯混元团队刚刚开源的混元世界模型1.1(WorldMirror),让任意视觉输入在数秒内生成一个可漫游的3D世界成为可能。

这是7月发布的混元3D世界模型1.0的升级版,新增了支持多视图及视频输入,单卡即可部署,秒级创造3D世界。
3D重建技术,本质上是让计算机像人一样,通过眼睛看到的2D图像,理解并构建出真实世界的3D结构。
过去,这是一项极其耗时且昂贵的工作。传统方法,如运动中恢复结构(Structure-from-Motion, SfM)和多视图立体(Multi-View Stereo, MVS),依赖复杂的迭代优化算法。它们需要反复计算、比对、修正,处理一个场景可能需要数分钟乃至数小时,并且对计算资源要求极高。
近几年的技术浪潮将方向推向了深度学习,特别是前馈神经网络。研究者们希望创造一个模型,能像一个训练有素的专家,看一眼图像就能直接给出3D几何结构,省去繁琐的中间过程。DUSt3R等模型的出现,证明了这条路的潜力,它们在处理图像对、视频和多视图图像上展现了非凡的能力。
混元世界模型1.0,已经是业界首个开源并且能与传统计算机图形学(Computer Graphics, CG)管线兼容的可漫游世界生成模型,甚至其lite版本可以在消费级显卡上运行。
但它有一个明显的局限,就是输入端过于单一,仅支持文本或单张图片。

混元世界模型1.1正是为了解决这个问题而生。它不再局限于单一输入,而是首次实现了同时支持多模态先验注入和多任务统一输出的端到端3D重建。这是一个真正的统一(any-to-any)的前馈式(feedforward)大模型,无论是多视图照片还是视频,都能高效处理,并且在单张显卡上就能实现秒级生成。
混元世界模型1.1的核心突破,是一种被称为多模态先验提示(Multi-Modal Prior Prompting)的机制。这个机制让模型不再仅仅“看”图像,还能“理解”附带的额外信息,这些信息在现实世界中常常是可获取的,比如相机的参数和深度图。

在过去,这些宝贵的信息要么被忽视,要么需要复杂的后处理才能利用。混元世界模型1.1通过一种巧妙的方式,将它们直接嵌入到模型的前馈过程中。
想象一下,你用手机围绕一个物体拍了一圈照片。除了照片本身,手机还记录了每一张照片拍摄时的位置和朝向(相机位姿)、镜头的焦距和成像中心(相机内参)。
相机位姿提供了全局的视角约束,它告诉模型所有照片是在一个统一空间中拍摄的,保证了重建出的物体不会出现错位和撕裂。相机内参则解决了尺度模糊的问题,让模型能够精确地将2D像素点投影到3D空间中。
模型处理这些信息的方式十分精妙。对于相机位姿,它首先会将整个场景的尺度归一化,确保模型处理不同大小的场景时有一致的标准。然后,它将代表旋转的矩阵转换为更紧凑的四元数,与平移向量组合成一个7维向量。
这个向量经过一个简单的两层全连接神经网络(Multilayer Perceptron, MLP)投影,最终变成一个与图像信息维度匹配的Token。这个Token就像一个带有空间坐标信息的标签,贴在了对应的图像信息上。
对于相机内参,处理过程更直接。模型提取出焦距和主点这四个关键参数,并根据图像的宽高进行归一化,这样做是为了消除不同分辨率图像带来的影响,增强训练的稳定性。同样,这四个标准化的参数也通过一个两层MLP网络投影成一个单独的Token。
深度图的处理则完全不同。深度图本身就是密集的空间信号,每一个像素点都代表了该点到相机的距离。
如果也把它压缩成一个Token,无疑会丢失大量的细节。因此,模型采用了一种更直接的融合策略。它首先将深度图的数值归一化到0到1的范围内,然后使用一个卷积层,将深度图转换成一系列“深度Token”。这些深度Token在空间上与从图像中提取的“视觉Token”是完全对齐的。
模型直接将这两种Token相加,就好像给视觉信息叠加了一层精确的几何轮廓,既保留了场景的空间结构,又极大地丰富了视觉Token的几何信息。这种处理对于那些缺乏纹理的区域,比如白墙、光滑的桌面或者反光的金属表面,效果尤其显著,因为在这些地方,纯粹的视觉信息很难判断其深度。
这种设计的最大优势是灵活性。系统采用分层编码策略,紧凑的先验信息(相机位姿、内参)被压缩成全局语义Token,而稠密的先验信息(深度图)则以空间对齐的方式融入视觉特征。通过这种动态的先验注入机制,模型可以灵活适应任何一种先验信息的组合。有,就用上,效果更好;没有,模型也能独立工作。这让它在真实应用场景中具有极强的适应性。
过去的3D重建模型通常是专才,有的专门做点云重建,有的专注于深度估计,还有的只做相机位姿推算。它们各司其职,但数据在不同模型之间流转会产生信息损耗,也无法保证结果的一致性。

混元世界模型1.1则是一个通才,它采用了一个完全基于Transformer的通用几何预测架构,能够在一个统一的框架内,一次性预测出多种3D重建任务所需要的结果。
这些输出包括了点云、相机参数、深度图、表面法线,甚至是用于实时渲染的3D高斯点(3D Gaussian Splatting, 3DGS)。
模型的主干是一个视觉Transformer。当输入图像和可选的先验信息经过编码器处理后,输出的Token被送入不同的“任务头”(Head)。这些任务头就像是主干网络伸出的不同分支,每个分支负责一项具体的任务。
对于点云、相机和深度估计,模型使用了DPT(Dense Prediction Transformer)头来回归密集的输出。它可以预测出场景的3D点云和多视图的深度图。同时,从相机先验Token中,另一个Transformer层会直接预测出相机参数。
表面法线估计也采用了相同的DPT架构。法线是描述表面朝向的单位向量,对于后续生成高质量的3D网格至关重要。为了确保输出是有效的单位向量,模型在最后增加了一个L2归一化层。训练法线估计有一个难题,就是带有精确法线标注的数据集非常稀少。
为了解决这个问题,团队引入了一种混合监督的方法。模型不仅在有标注的数据集上学习,还会利用那些只有地面真实深度图的数据,通过平面拟合算法生成“伪法线”来辅助训练。
在新视角合成方面,模型通过预测3D高斯点来实现。这是一种近年来非常流行的实时渲染技术。模型同样使用一个DPT头来回归像素级别的高斯深度图和高斯特征图。预测出的深度,结合输入的相机位姿和内参,可以通过反向投影计算出每个高斯点的中心位置。至于高斯点的其他属性,如颜色、不透明度和形状,则通过结合高斯特征和从一个卷积网络中提取的外观特征来共同推断。

这种多任务协同训练的模式,让各项任务之间形成了互补和促进。例如,准确的法线预测可以在后续的泊松表面重建(Poisson surface reconstruction)中生成更清晰、细节更锐利的网格。而深度和相机参数的互相约束和校准,也提升了整体几何结构的一致性。最终,模型的所有输出都源于同一个共享的几何表示,这保证了它们在根本上是协调统一的。
同时训练一个能处理这么多任务的基础模型,其挑战是巨大的。因为这些几何量在物理上是相互耦合的,一个任务的偏差可能会影响到另一个任务。这就好比教一个孩子同时学习多门课程,如果方法不当,很容易导致知识混淆。
混元世界模型1.1采用了一套系统性的课程学习(Curriculum Learning)策略,就像一位经验丰富的老师为模型量身定制了学习计划。这个计划从三个维度展开,难度循序渐进:任务顺序、数据调度和渐进分辨率。
在任务顺序上,模型并非一开始就学习所有内容。它首先联合训练多模态先验提示模块和其他从预训练权重初始化的参数。这一步的目标是建立起感知和利用先验信息的基础能力。当模型掌握了这个基础后,再将法线预测任务加入到联合训练中。最后,当前面所有模块的参数都被冻结后,再专门训练3D高斯点的预测头。这个顺序保证了模型先学习底层的几何理解,再学习上层的渲染表示。
在数据调度上,策略也同样考究。初始训练阶段,模型会接触一个包含真实世界数据和合成数据的综合数据集。这让模型能够见识到多样化的数据分布,从而提高泛化能力,避免对某一类数据产生过拟合。当模型有了初步的泛化能力后,进入微调阶段。在这个阶段,模型只使用那些具有高质量相机、深度和表面法线标注的合成数据。这样做可以减轻真实数据集中普遍存在的标注噪声的干扰,让模型学习到更精确的几何关系。
在分辨率上,模型采用了渐进式预热的策略。训练从低分辨率的输入和输出开始。这有助于模型在早期快速、稳定地收敛,抓住场景的宏观结构。然后,再逐步提高分辨率,让模型能够感知和重建越来越精细的细节。这就像学画画,先画轮廓,再添细节。
这种精心设计的训练策略,是混元世界模型1.1能够成为一个强大通才的关键。
混元世界模型1.1在点云重建、相机位姿估计、表面法线估计和新视角合成这四个核心任务的多个行业基准测试中,都取得了当前最先进(State-of-the-art, SOTA)的性能。
在点云重建任务上,评估在场景级的7-Scenes、NRGBD数据集和对象级的DTU数据集上进行。结果显示,在不使用任何先验信息的情况下,混元世界模型1.1的性能就已经超越了之前的顶尖方法VGGT和π3。当整合了相机内参、深度图或相机位姿等任何单一先验时,性能都会得到进一步提升。而当所有先验信息组合使用时,模型达到了最佳效果,其平均准确度相比无先验的基线模型,在7-Scenes和NRGBD上分别提升了58.1%和53.1%。

在相机位姿估计任务上,模型在从未见过的RealEstate10K、Sintel和TUM-dynamics数据集上进行了零样本测试。结果表明,它在RealEstate10K和TUM-dynamics上实现了卓越的性能,同时在Sintel数据集上也保持了竞争力。

在深度估计和表面法线估计这两个更传统的任务上,混元世界模型1.1的表现同样出色。即便没有针对单视图度量深度推理进行特别优化,它的性能也与当前领先方法相当或更优。在处理视频序列时,其结果完全可以和专业的重建框架相媲美。在表面法线估计上,它在ScanNet、NYUv2和iBims-1三个数据集上都展现了显著的改进。

在新视角合成这一任务上,混元世界模型1.1的优势尤为明显。无论是在稀疏视图还是密集视图的设置下,它在RealEstate10K和DL3DV两个数据集上的所有评价指标,包括PSNR、SSIM和LPIPS,都大幅超越了之前的最佳方法AnySplat。

混元世界模型1.1不仅是一个功能全面的多任务模型,更是一个在各个单项上都具备顶尖实力的模型。
以下是重建效果展示:



单卡秒级的推理能力,极大地降低了高质量3D内容创作的门槛,为游戏、影视、虚拟现实、数字孪生等众多领域打开了新的想象空间。
原文链接:点击前往 >
文章作者:AIGC开放社区
版权申明:文章来源于AIGC开放社区。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励
已关注
关注