谷歌机器人大脑又进化了。成功率飙3倍，还能看表干活、保护自己- 大数跨境

AIGC开放社区

2026-04-16

导读：Gemini Robotics ER 1.6模型。

专注AIGC领域的专业社区，聚焦大语言模型发展、市场研究与开发者生态。

Google DeepMind发布Gemini Robotics ER 1.6 机器人感知能力实现重大突破

机器人要真正服务于千家万户与工厂，仅能理解语音指令远远不足，必须具备对复杂物理环境的深度认知能力。Google DeepMind最新推出的Gemini Robotics ER 1.6模型，显著提升机器人的空间感知、多视角解析与仪表读取精度，赋予其精准指认和专业读表能力，同时强化操作安全性与合规性。

新模型专为复杂具身推理需求设计，可调用Google Search获取实时信息，协同视觉语言动作模型（VLA）将高级指令转化为机械执行步骤。相比上一代ER 1.5及Gemini 3.0 Flash，在空间与物理推理精度上实现跨越式提升。

精准指认是机器人执行任务的核心基础。面对杂乱环境中的微型螺丝钉识别，系统需全局扫描并排序物品体积；在规划流水线路径时，必须构建三维立体运动轨迹。新模型通过连续指认精准计数、标注关键特征点，将目标尺寸与距离估算误差降至最低。

例如在五金工具识别测试中，模型准确统计出2把锤子、1把剪刀、1把刷子及6把相互遮挡的钳子。面对无法匹配的手推车和特定电钻指令，系统严格遵循视觉事实，避免虚构指认。而旧版模型常存在计数错误、遗漏阴影物件及坐标偏差等问题。

毫秒级任务判定是自主行动的关键。面对光线变化、遮挡物干扰及模糊指令等挑战，机器人需结合光学感知、逻辑推导与常识判断。

新模型搭载多角度摄像头协同工作：俯视镜头提供整体定位，机械臂微距镜头捕捉毫米级细节。系统实时融合多路视频流数据，构建连续三维场景。例如在钢笔入筒任务中，通过矩阵运算精准判定笔尖越过筒口物理边界后，即时释放夹爪并确认任务完成。

面对老旧化工厂温度计、压力表等设备监控需求，新模型能精准识别沾灰机械表盘、倾斜液位计及频闪数字屏等复杂场景。

该技术解决了高难度视觉推理问题：校正玻璃折射导致的液面椭圆变形、解析多指针仪表的分层数值、识别刻度模糊的微小标识。系统通过代码控制相机无损放大关键区域，结合数学模块计算物理间隔，最终将像素数据转化为准确环境参数。在波士顿动力Spot机器狗的巡检任务中，仪表读取成功率高达93%，较前代提升3倍。

新模型深度集成物理安全机制，成为目前最安全的机器人大脑。面对危险场景时，系统能主动执行风险预判：

识别腐蚀性液体警告标签后立即终止接触；通过体积密度计算规避超载（如20公斤抓取上限）；借助真实工伤事故数据库，文字指令隐患识别准确率提升6%，动态视频隐患检测率提升10%。这种严丝合缝的约束机制，确保机器人始终遵守物理法则与安全准则。

开发者现可通过Gemini API及Google AI Studio接入Gemini Robotics-ER 1.6。凭借卓越的空间感知能力与严密安全防护，新一代具身机器人正在工业与民用场景加速落地。

【声明】内容源于网络

AIGC开放社区

1234

内容 1703

粉丝 0

AIGC开放社区 1234

总阅读19.3k

粉丝0

内容1.7k