谷歌DeepMind推离线Gemini On-Device，实现机器人本地视觉-语言-动作一体化

谷歌（Google）DeepMind日前发布离线机器人AI模型Gemini Robotics On-Device，可在机器人本地直接运行，无需云端连接即可同时完成视觉识别、语言理解与动作执行，实时响应人类指令。

该模型采用视觉-语言-动作（VLA）基础架构，为双臂机器人量身定制，能解析自然语言指令并驱动机械臂执行折叠衣物、装配等复杂操作，通过50至100次示范即可快速学习新任务。

本地部署优势在于规避网络延迟与中断风险，尤其适用于对实时性和稳定性要求极高的医疗操作、灾难救援及工厂自动化场景，确保任务持续可靠执行。

模型最初在Aloha机器人系统上训练，后成功移植到Franka Emika FR3双臂机器人及Apptronik Apollo人形机器人，并在未知物体与新环境下展现出出色泛化能力。

谷歌同时推出Gemini Robotics SDK，开发者可借助MuJoCo模拟器结合少量示范对模型进行微调。目前该SDK与On-Device模型仅向受信任测试者提供，产业化应用处于私有预览阶段。

该离线模型基于Gemini 2.0架构，尚未集成最新Gemini 2.5特性，但已与英伟达（NVIDIA）Isaac GR00T、OpenAI RT-2等同级竞品形成正面竞争。

阅读更多