
{{!completeInfo?'请完善个人信息':''}}
谷歌DeepMind发布了Gemini Robotics On-Device模型,该模型可在机器人本地直接运行,无需云端连接,能同时完成视觉识别、语言理解与动作执行,实时响应人类指令。
摘要
该模型采用视觉-语言-动作(VLA)基础架构,为双臂机器人量身定制,能够解析自然语言指令并驱动机械臂执行折叠衣物、装配等复杂操作,并且通过50至100次示范即可快速学习新任务。
本地部署可以规避网络延迟与中断风险,尤其适用于对实时性和稳定性要求极高的医疗操作、灾难救援及工厂自动化场景,确保任务持续可靠执行。
模型最初在Aloha机器人系统上训练,后成功移植到Franka Emika FR3双臂机器人及Apptronik Apollo人形机器人,并在未知物体与新环境下展现出出色泛化能力。
谷歌同时推出了Gemini Robotics SDK,开发者可借助MuJoCo模拟器结合少量示范对模型进行微调。目前该SDK与On-Device模型仅向受信任测试者提供,产业化应用处于私有预览阶段。该离线模型基于Gemini 2.0架构,尚未集成最新Gemini 2.5特性,但已与英伟达(NVIDIA)Isaac GR00T、OpenAI RT-2等同级竞品形成正面竞争。
谷歌(Google)DeepMind日前发布离线机器人AI模型Gemini Robotics On-Device,可在机器人本地直接运行,无需云端连接即可同时完成视觉识别、语言理解与动作执行,实时响应人类指令。
该模型采用视觉-语言-动作(VLA)基础架构,为双臂机器人量身定制,能解析自然语言指令并驱动机械臂执行折叠衣物、装配等复杂操作,通过50至100次示范即可快速学习新任务。
本地部署优势在于规避网络延迟与中断风险,尤其适用于对实时性和稳定性要求极高的医疗操作、灾难救援及工厂自动化场景,确保任务持续可靠执行。
模型最初在Aloha机器人系统上训练,后成功移植到Franka Emika FR3双臂机器人及Apptronik Apollo人形机器人,并在未知物体与新环境下展现出出色泛化能力。
谷歌同时推出Gemini Robotics SDK,开发者可借助MuJoCo模拟器结合少量示范对模型进行微调。目前该SDK与On-Device模型仅向受信任测试者提供,产业化应用处于私有预览阶段。
该离线模型基于Gemini 2.0架构,尚未集成最新Gemini 2.5特性,但已与英伟达(NVIDIA)Isaac GR00T、OpenAI RT-2等同级竞品形成正面竞争。
原文链接:点击前往 >
文章作者:大众软件
版权申明:文章来源于大众软件。该文观点仅代表作者本人,扬帆出海平台仅提供信息存储空间服务,不代表扬帆出海官方立场。因本文所引起的纠纷和损失扬帆出海均不承担侵权行为的连带责任,如若转载请联系原文作者。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/
{{likeNum}}
好文章,需要你的鼓励