扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

星海图将发布全球首个开放场景高质量真机数据集 Galaxea,含 500 小时、50 场景、1600+物体、58 种技能,统一硬件采集,解决规模、真实性与一致性的行业空白。

摘要

提出 System-2(2 Hz 规划 VLM)+ System-1(200 Hz 执行 VLA)异步架构,23 DoF 全身控制,可完成整理床铺等长程复杂任务,性能超越 Pi0。

跨本体预训练→单本体精调→少样本后训练,实验发现“跨本体不一定有益”,强调单本体数据对精确全身协调的关键作用。

开源数据集+模型让中小企业和高校无需巨额采集即可研发,统一格式催生可复现基准,推动标准化、监管与跨学科协作。

成立两年 7 轮融资近 15 亿元、估值逼近 10 亿美元;以“数据开源”反共识,试图复制开源软件推动互联网繁荣的路径,激活整个机器人生态。

尽管今天语言模型的开源生态已经十分蓬勃,但机器人领域,开源还是很小众的词汇,相比于模型的开源,数据的开源更为稀缺,甚至有公司直言“数据是不可能开源的”。

本来就不走寻常路的星海图,决定继续唱“反调”。

硅星人独家了解到,星海图即将开源全球首个开放场景高质量真机数据集Galaxea Open-World Dataset,及其G0-快慢双系统全身智能VLA模型。这一举动无疑在相对各自为战的机器人行业打开了一条新的路径。

成立不到两年,星海图已完成7轮融资、累计近15亿元人民币,最新1亿美元A4/A5轮由今日资本与美团系共同领投,公司估值正快速冲向10亿美元,是目前机器人独角兽中很有特点的一家公司。

在行业普遍保守的背景下,走开放路线,让这家公司不再是技术构想上独树一帜,而是真刀真枪地干起了的革命性实践。

据硅星人了解,星海图即将发布的全球首个开放场景高质量真机数据集Galaxea Open-World Dataset包含500小时真实世界移动操作数据,覆盖家庭、厨房、零售、办公等50个场景、150类任务、1600+物体、58种操作技能,全程使用星海图R1 Lite本体采集,保证动作空间一致性与语言标注的高精度对齐。这一数据集的突破性在于其真实性和完整性的完美结合。以往的机器人数据集要么规模有限,要么局限于实验室环境,要么因为多平台采集导致数据一致性问题。而星海图的数据集不仅规模庞大,更重要的是全部来自真实的生活和工作环境,同时通过统一硬件平台确保了数据的一致性和可靠性。

图片

星海图G0-快慢双系统全身智能模型结合System-2(规划,VLM)+ System-1(执行,VLA),分别在2Hz与200Hz异步运行,实现从自然语言指令到23自由度全身控制的长程任务执行。这种架构设计灵感来源于人类认知的“双系统理论”,巧妙地将深度思考与快速反应结合起来。慢系统负责理解复杂指令、分析环境状况、制定执行计划,而快系统则专注于精确的动作执行和实时反馈控制。两个系统的异步协作不仅提高了执行效率,也增强了系统的鲁棒性和适应性。

星海图G0快慢双系统全身智能模型,结合System-2(规划,G0-VLM)+ System-1(执行,G0-VLA)异步运行,实现从视觉和语言指令到23自由度全身控制的长程任务执行。提出3阶段训练方法:跨本体预训练泛化感知与语言理解,再用单本体高质量数据精训动作控制,最后少样本后训练提升特定任务表现。

更令人印象深刻的是其三阶段训练策略的创新性。跨本体预训练泛化感知与语言理解,再用单本体高质量数据精训动作控制,最后少样本后训练提升特定任务表现。这种渐进式的训练方法解决了机器人学习中的一个核心问题:如何在保持通用性的同时实现精确控制。星海图团队通过大量实验发现,当预训练平台与目标机器人之间存在较大体现差距时,跨体现预训练的效果会显著减弱,甚至产生负面影响。这一发现颠覆了业界对于跨平台预训练必然有益的传统认知,突出了单体现预训练的重要性,特别是对于需要精确全身协调的复杂任务。

在实际性能表现上,G0突破了柔性物体操作、全身移动控制、长程任务与泛化性的瓶颈,在少样本迁移与本体特定技能上均显著优于现有最新的benchmark Pi0,特别在整理床铺等全身协调任务表现领先。这些任务的成功执行不仅验证了技术方案的有效性,更重要的是证明了真实世界数据训练的价值。整理床铺这样的任务涉及柔性物体操作、全身协调控制、长序列规划等多个技术难点,G0的优异表现表明其已经具备了在复杂真实环境中执行实用任务的能力。

站在行业全局的高度来看,如果能够引起数据共享的连锁反应,整个机器人行业或许将打开另外一种局面。

图片

高质量机器人数据集的开源将显著降低中小企业和研究机构的研发门槛。过去,收集大规模真实世界机器人数据需要巨额投资和长期积累,许多有想法的团队因为缺乏数据基础而无法开展研究。现在,研究者可以直接基于Galaxea数据集进行算法创新,大大缩短了从研究到应用的周期,让更多的创新想法有机会得到验证和实现。

其次,统一的数据格式和标注标准有助于建立行业基准,推动机器人领域的规范化发展。不同团队的研究成果将具有可比性,避免了各自为政、重复建设的问题,促进了科学研究的系统性和累积性进步。这种标准化还为监管部门制定相关政策提供了重要参考,有助于建立机器人安全、伦理等方面的行业规范。

更重要的是,开源数据集为不同领域的专家提供了共同的研究平台,激发了跨学科创新的活力。计算机视觉、自然语言处理、控制理论等不同领域的研究者可以在同一个数据基础上验证各自的理论和算法,这种跨领域的交流与合作往往能够产生意想不到的创新突破。同时,硬件厂商、软件开发者、系统集成商等产业链各环节也能够基于统一的数据标准进行更好的协作,形成良性的生态循环。

正如开源软件推动了互联网的繁荣,开源机器人数据和模型也可能催生出一个更加开放、协作、创新的机器人生态系统。在这个生态中,技术创新的速度将大幅提升,应用场景将更加丰富,而机器人真正走入千家万户的愿景也将更快实现。

这家“不走寻常路”的公司,用实际行动证明了有时候“反叛”并不意味着对抗,而是为了推动整个行业向前发展,或许正在为机器人行业找到新的方向。

原文链接:点击前往 >

文章作者:硅星人Pro

版权申明:文章来源于硅星人Pro。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch01
扫码添加小助手
微信扫描二维码,添加小助手
微信号:yfch01
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与16万+出海人同行!