专注AIGC领域的专业社区,聚焦大语言模型发展、市场研究与开发者生态。
Google DeepMind发布Gemini Robotics ER 1.6 机器人感知能力实现重大突破
机器人要真正服务于千家万户与工厂,仅能理解语音指令远远不足,必须具备对复杂物理环境的深度认知能力。Google DeepMind最新推出的Gemini Robotics ER 1.6模型,显著提升机器人的空间感知、多视角解析与仪表读取精度,赋予其精准指认和专业读表能力,同时强化操作安全性与合规性。
空间感知与指认能力
新模型专为复杂具身推理需求设计,可调用Google Search获取实时信息,协同视觉语言动作模型(VLA)将高级指令转化为机械执行步骤。相比上一代ER 1.5及Gemini 3.0 Flash,在空间与物理推理精度上实现跨越式提升。
精准指认是机器人执行任务的核心基础。面对杂乱环境中的微型螺丝钉识别,系统需全局扫描并排序物品体积;在规划流水线路径时,必须构建三维立体运动轨迹。新模型通过连续指认精准计数、标注关键特征点,将目标尺寸与距离估算误差降至最低。
例如在五金工具识别测试中,模型准确统计出2把锤子、1把剪刀、1把刷子及6把相互遮挡的钳子。面对无法匹配的手推车和特定电钻指令,系统严格遵循视觉事实,避免虚构指认。而旧版模型常存在计数错误、遗漏阴影物件及坐标偏差等问题。
多视角协同与任务判定
毫秒级任务判定是自主行动的关键。面对光线变化、遮挡物干扰及模糊指令等挑战,机器人需结合光学感知、逻辑推导与常识判断。
新模型搭载多角度摄像头协同工作:俯视镜头提供整体定位,机械臂微距镜头捕捉毫米级细节。系统实时融合多路视频流数据,构建连续三维场景。例如在钢笔入筒任务中,通过矩阵运算精准判定笔尖越过筒口物理边界后,即时释放夹爪并确认任务完成。
工业仪表读取技术突破
面对老旧化工厂温度计、压力表等设备监控需求,新模型能精准识别沾灰机械表盘、倾斜液位计及频闪数字屏等复杂场景。
该技术解决了高难度视觉推理问题:校正玻璃折射导致的液面椭圆变形、解析多指针仪表的分层数值、识别刻度模糊的微小标识。系统通过代码控制相机无损放大关键区域,结合数学模块计算物理间隔,最终将像素数据转化为准确环境参数。在波士顿动力Spot机器狗的巡检任务中,仪表读取成功率高达93%,较前代提升3倍。
安全约束智能保障
新模型深度集成物理安全机制,成为目前最安全的机器人大脑。面对危险场景时,系统能主动执行风险预判:
识别腐蚀性液体警告标签后立即终止接触;通过体积密度计算规避超载(如20公斤抓取上限);借助真实工伤事故数据库,文字指令隐患识别准确率提升6%,动态视频隐患检测率提升10%。这种严丝合缝的约束机制,确保机器人始终遵守物理法则与安全准则。
开发者现可通过Gemini API及Google AI Studio接入Gemini Robotics-ER 1.6。凭借卓越的空间感知能力与严密安全防护,新一代具身机器人正在工业与民用场景加速落地。

