
{{!completeInfo?'请完善个人信息':''}}
香港科技大学、Manycore联合开源了一种名为SpatialLM的空间大模型,专门用于处理3D点云数据,并生成结构化的三维场景理解输出,如墙壁、门窗、物体边界框及其语义类别等。
摘要
SpatialLM通过将点云数据的特征提取、特征对齐和语言生成紧密结合,实现从原始三维数据到结构化场景描述的高效转换。它采用Sonata编码器作为前端模块,该编码器基于点的方法直接处理点云,能更好地保留几何信息,并通过自监督学习获得强大的特征表示;采用两层的MLP作为投影器,将点云特征映射到与语言模型兼容的特征空间中,实现多模态特征的融合;以阿里开源的Qwen2.5-0.5B为基础模型,通过在合成数据集上微调,学习从点云输入生成准确的三维场景描述。
研究团队从专业室内设计平台获取12328个场景,通过规则过滤与专业渲染生成包含403291面墙、123301扇门、48887扇窗户及412932个物体实例的大规模合成数据集,覆盖59个常见物体类别,所有物体尺寸大于15cm以确保真实性,并采用工业级渲染引擎生成带相机轨迹的RGBD图像。与现有数据集相比,其场景数量是Structured3D的3.5倍,且通过人类设计师的真实方案保证了空间布局的合理性,为LLM学习空间规律提供了高质量训练信号。
模型的训练过程采用了单阶段训练策略,将编码器、投影器和语言模型的所有参数同时进行训练,确保整个系统在训练过程中能够协同优化,实验结果表明这种策略能取得最佳性能,尤其在三维目标检测任务中,其重要性更为明显。
SpatialLM的出现让机器像人类一样感知、理解和与室内三维场景互动成为可能,它克服了传统三维场景建模方法的局限性,如难以扩展到新场景类型或对象类别等,为三维场景的理解和建模提供了新的思路和方法,有望在机器人导航、室内设计、虚拟现实等领域发挥重要作用。
香港科技大学、Manycore联合开源了一种专用于处理 3D 点云数据,并生成结构化的三维场景理解输出的空间大模型SpatialLM。
开源地址:https://github.com/manycore-research/SpatialLM
让机器像人类一样感知、理解和与室内三维场景互动,一直是人工智能的重要目标之一。但与二维图像相比,三维场景的理解和建模面临着更大的挑战,尤其是在数据获取、模型训练和计算效率等方面。
传统的三维场景建模方法通常依赖于复杂的网络设计和大量的手动标注数据。然而,这些方法往往存在局限性,例如,难以扩展到新的场景类型或对象类别。
而SpatialLM通过将点云数据的特征提取、特征对齐和语言生成紧密结合,实现了从原始三维数据到结构化场景描述的高效转换。
点云编码器是SpatialLM的前端模块,负责从原始的三维点云数据中提取出有意义的特征表示。点云数据的不规则性使得这一任务变得尤为复杂。为了应对这一挑战,研究团队尝试了多种不同的编码器设计方法。
首先,考虑了基于映射的方法,这种方法通过将二维图像特征映射到三维点上,从而为每个点赋予丰富的语义信息。但这种方法在实验中表现不佳,主要是因为在下采样过程中丢失了太多的空间信息,这对于依赖几何坐标的三维重建任务来说是致命的。
随后,研究团队转向基于体素的方法,这种方法通过将点云转换为规则的三维体素网格,从而利用稀疏卷积算法进行高效计算。尽管这种方法在处理规则化数据方面表现出色,但在处理复杂的三维结构时仍然存在局限性。最终,研究团队选择了基于点的方法,这种方法直接处理点云作为连续空间中的集合,能够更好地保留点云的几何信息。
研究人员采用了 Sonata 编码器,这是一种基于点的编码器,通过自监督学习获得强大的特征表示。Sonata编码器的设计灵感来源于 Point Transformer V3,去除了解码器,专注于编码器的自监督学习。这种设计不仅提高了特征提取的效率,还使得编码器能够更好地适应后续的语言模型模块。
在提取了点云特征之后,接下来的挑战是如何将这些特征与语言模型进行对齐。这一过程对于多模态特征的融合至关重要,因为它需要在保留几何信息的同时,将特征转换为语言模型能够理解和处理的形式。
研究团队采用了一个两层的 MLP 作为投影器,将点云特征映射到与语言模型兼容的特征空间中。MLP 的设计不仅能够有效地处理特征的非线性变换,还能够确保特征在维度和语义上的对齐。通过这种方式,点云特征被转换为语言模型可以接受的输入格式,从而实现了多模态特征的无缝融合。
大模型作为SpatialLM的核心,主要负责生成结构化的三维场景描述。模型的选择对于整个系统的性能有着决定性的影响。研究团队选择了阿里开源的Qwen2.5-0.5B 作为基础模型。通过在合成数据集上进行微调,该模型能够学习到如何从点云输入中生成准确的三维场景描述,包括墙壁、门窗、物体边界框及其语义类别。
数据集方面,研究团队从专业室内设计平台获取 12,328 个场景,通过规则过滤与专业渲染生成包含 403,291 面墙、123,301 扇门、48,887 扇窗户及 412,932 个物体实例的大规模合成数据集。该数据集覆盖 59 个常见物体类别,所有物体尺寸大于 15cm 以确保真实性,并采用工业级渲染引擎生成带相机轨迹的 RGBD 图像。
与现有数据集相比,其场景数量是 Structured3D 的 3.5 倍,且通过人类设计师的真实方案保证了空间布局的合理性,为 LLM 学习空间规律提供了高质量训练信号。
模型的训练过程采用了单阶段训练策略。这一策略的核心思想是将编码器、投影器和语言模型的所有参数同时进行训练,从而确保整个系统在训练过程中能够协同优化。实验结果表明,这种单阶段训练策略能够取得最佳的性能,尤其是在三维目标检测任务中,这种策略的重要性更为明显。
原文链接:点击前往 >
文章作者:AIGC开放社区
版权申明:文章来源于AIGC开放社区。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励