机器人视觉技术取得重大突破,蚂蚁灵波最新开源的LingBot-Map模型实现无限帧视频实时稳定3D重建。
该模型专为纯自回归的流式3D重建设计,应用于扫地机器人可实时构建家居3D结构;用于自动驾驶能精准计算路面环境。
突破三重技术瓶颈
区别于传统事后诸葛亮式离线3D重建,流式3D重建需来一帧算一帧,但长期面临三大挑战:
显存与记忆平衡难题
历史帧硬存导致显存溢出,缓存过少则产生灾难性遗忘。LingBot-Map采用几何上下文注意力(GCA)实现分层记忆管理:
- 锚点模块:锁定初始帧建立坐标基准,解决尺度模糊问题
- 位姿参考窗口:存储近期k帧高维特征,确保局部几何精度
- 轨迹记忆:将历史帧压缩至6个极简Token,处理万帧视频显存消耗恒定
性能实现全面突破
权威测试证实模型达成速度、精度、显存三重优化:
- 10000+帧序列保持零轨迹漂移
- 518×378分辨率下推理速度达20FPS,精度误差降低77%
- 显存仅需13.28GB,较同类方案降低63%
构建具身智能技术闭环
LingBot-Map补全了感知-建模-模拟-控制全链路技术栈,为产业落地提供关键支撑:
- 机器人:摄像头替代激光雷达实现低成本建图
- AR/VR:虚拟物体零延迟精准叠加真实场景
- 自动驾驶:支持城市级场景实时动态建模
该技术标志着机器理解物理世界能力迈入新阶段,加速具身智能规模化落地进程。

