点“小耳机”可边听边看!
无法理解三维空间的 AI,终究是缺乏行动力的 “语言巨人”
为何敌不过一只苍蝇的空间直觉?
一个AI能在聊天时对答如流、写文章、解数学题,智商看起来很高;但把它装进一个机器人或智能眼镜里,它却连绕过一张椅子、判断一个物体离自己多远都做不好:笨手笨脚,像个“纸上谈兵的天才”。
当前AI的尴尬:语言能力很强,物理感知却很差。
一只苍蝇的脑子很小,根本不懂文字,但它能轻松在凌乱的房间里飞来飞去、快速避开障碍、稳稳停在某个地方。而我们的AI,哪怕用了万亿级的复杂计算,在真实空间里依然显得“又盲又笨”。
为什么会这样?
因为物理世界的“常识”,比如东西的远近、遮挡关系、重力影响,很难只从书本或文字中学到。动物天生就具备这种空间直觉,但AI还没有。
AI行业正在悄悄转向:
不再一味追求更大的语言模型,而是开始攻坚“空间智能”。
谁能先让AI低成本、快速地“感知”并理解周围的三维世界,谁就可能引领下一波真正的技术突破。
空间智能:AI 如何真正 理解物理世界?
简单来说,“空间智能”就是让AI真正“看懂”世界的关键一步,
这不是普通的升级,而是给AI装上一个理解世界的“底层操作系统”。
为什么这么说呢?
李飞飞打了个比方:
空间智能就像是人类认知的“脚手架”。
想想婴儿是怎么认识世界的:
他们通过抓东西、爬来爬去,慢慢理解什么是远、什么是近、什么会被挡住、东西为什么会掉下去……
这种对空间的直觉,远在人类会说话、会写字之前就存在了。消防员在浓烟里能凭感觉判断房子会不会塌,也是靠这种刻在基因里的空间理解力。
现在的AI呢?
虽然能读万卷书、看百万图,却对真实世界里的空间关系一头雾水。让它预测一个杯子被推一下会怎么倒、几个物体之间谁挡着谁,它常常懵掉。AI和它该互动的物理世界,根本不在一个频道上。
要补上这堂课,得给AI搭建一个全新的“世界模型”。
它需要具备三种核心能力:
1、能“想象”出合理、符合物理规律的场景
(比如一个球滚下斜坡该是什么样子);
2·、能同时理解文字、图像、动作等多种信息,并把它们联系起来;
3、能预测自己的行为会对周围环境产生什么影响。
这远比教会AI处理文字难得多,因为它需要让AI学会理解这个立体、动态、充满物理规则的真实世界。
一旦突破,AI就不再只是被动的“答题机器”了。
它会获得一种接近动物本能的“空间直觉”:
不仅能“看到”物体,还能理解它们为什么在那、彼此有什么关系、接下来可能会发生什么。这样的AI,才能真正在现实世界里自主行动、与人协作。
到那时,变化会是实实在在的:
自动驾驶能像老司机一样预判路况;机器人可以在杂乱仓库里灵活穿梭;手术机器人能更精准地辅助医生操作……
这不仅是技术升级,更是AI拿到在物理世界里安全、自由行动的“通行证”。
是选择“世界生成”还是“”空间决策“,还是两条腿一起走?
为了让AI获得真正的“空间智能”(即理解并适应三维世界的能力),目前行业主要分成了两大派别,它们像在攀登同一座山峰的两条路:
第一条路:造一个无限大的“虚拟训练场”
这派的想法是,既然在真实世界里收集数据又贵又慢,那不如用AI技术自己生成一个高度逼真、可以随意互动的虚拟世界。在这个数字世界里,机器人可以无限次地练习抓取、行走,游戏和电影也能获得无尽的3D素材。
谁在做:META在尝试给万物建立3D档案;李飞飞团队的“Marble”模型,不仅能理解3D场景,还能像“造物主”一样生成和修改它;中国的GIGA则擅长把普通的照片或视频快速变成高质量的3D场景。
这条路旨在提供了一个安全、廉价、可重复的“练兵场”,解决了真实数据不足的难题。
第二条路:给机器装上“实时反应大脑”
这派更着眼于当下,目标是让机器(如机器人、自动驾驶汽车)通过摄像头等传感器,在瞬息万变的真实环境里,立刻看懂周围、并做出安全精准的动作。
谁在做: 英伟达在研发让视觉信号直接指挥动作的模型,减少决策延迟;小鹏的智能驾驶,本质就是在复杂路况中做持续的空间决策;还有公司在研究让机器人“看到就能思考并行动”,或者只用普通摄像头就在小型设备上实现精确的3D感知。
第二条路直接决定了智能体能否走出实验室,在真实生活中及时、可靠地工作。竞争的关键是速度、精度、耗电和成本。
两者关系:不是对立,而是搭档
这两条路并不矛盾,反而相辅相成:
虚拟训练场(第一条路) 可以为 实时反应大脑(第二条路) 提供海量的模拟训练数据,让它提前见过各种情况。
而真实世界中遇到的挑战和新数据(来自第二条路),又能反过来帮助优化和修正虚拟世界,让它更符合物理规律。
简单来说,这场竞赛是AI在 “虚拟” 与 “现实” 之间搭建桥梁的努力。
最终目标是创造出既拥有丰富“空间常识”,又能在我们身边安全、灵活行动的真正智能体。
不管技术路线怎么走,整个行业都在朝着一个清晰的目标努力:
把曾经高高在上的“空间感知”能力,变得像水电煤一样便宜和普及。
未来已来,而且它很可能会比我们想象的更便宜。
纯靠视觉(摄像头)的方案,正在打破“3D感知=昂贵硬件”的魔咒。
过去,想让机器理解3D世界,就得砸钱,要么用多个高端摄像头,要么装几千美元的激光雷达。这使得相关技术只能用在实验室或高端工业场景。
但现在,情况正在改变。
一些美国AI巨头正用“大力出奇迹”的方式引领方向:
META SAM 3 (3D):
目标是给世界万物做3D标记,就像给AI打造一本最全的“3D视觉字典”。
META 的 SuperSensing:
想让AI不仅能“看到”,还能“看透”物体的物理运动规律(比如一个球抛出去会怎么飞)。
NVIDIA NitroGen:
试图让机器人“看到就马上能行动”,跳过复杂的中间思考,实现视觉到动作的直接反应。
他们的路径很强大,但依赖于巨大的算力和昂贵的硬件,“堆料”是它们的主要打法,这自然也推高了成本。
另一种更“聪明”的破局者:消费电子品牌韶音(Shokz) 和AI公司联汇科技(OmAI) 联合推出的一款AI眼镜,展示了一条极具颠覆性的思路:
图源:机器之心 公众号
它完全抛弃了昂贵的传感器,
仅仅依靠一个普通的单目RGB摄像头和内置的OmModel模型。
就能在小小的眼镜端,实时感知和理解周围的3D开放空间,并给出清晰的避障导航提示。
这对行业意味着什么?
对用户来说,这是一副轻便、能指导你在复杂环境中安全行走的智能眼镜。
但对整个产业而言,这是一次“降维打击”
它证明了:通过算法模型的优势,曾经高昂的3D空间感知能力,其硬件成本可以被降低到一个普通摄像头的水平。
“空间感知”的百元时代,或许真的不远了。
当这项能力变得足够便宜和轻便,它才能真正从实验室走进千家万户的日常生活。
图源:机器之心 公众号
具身智能行业真的要迎来一个关键的“爆发前夜”?
过去大家比拼的是AI模型的参数大小,但现在和未来,比的是AI在真实世界里的“动手能力”。谁能让AI像生物一样灵巧地感知和行动,谁就掌握了下一个十年的机会。这个行业的“iPhone时刻”,也就是像智能手机那样引爆大众市场的转折点,很可能就从这次CES上展示的“空间感知成本大跳水”开始。
关键变化就这两点:
价格从“买不起”到“用得起”
当让机器看懂3D空间的成本,从几万元(依赖激光雷达)降到几百元(只靠摄像头和智能算法),一切都变了。不仅是为视障人士设计的导航眼镜,未来的扫地机器人、送货无人机、甚至家庭机器人,都将因此摆脱高昂硬件成本的束缚,真正走进普通家庭。
数据从“爬文字”到“看世界”
未来,谁能让AI在各种真实场景中实现“看得懂、能决策”的完整视觉能力,谁就掌握了物理世界最鲜活、最宝贵的数据流。这种基于真实交互产生的数据,其价值和壁垒,远远高于从网上爬取的文字数据。
一个清晰的判断:
未来3到5年,那些能在设备端(不依赖云端)、实时、精确地完成3D感知与决策的公司,将成为整个具身智能生态的 “核心引擎”。
它们的角色,将如同个人电脑时代的英特尔(Intel Inside),或智能手机时代的ARM芯片一样不可或缺。正是它们提供的平价、高效的“空间视觉”能力,才能推动智能机器和可穿戴设备普及千家万户,开启一个新的消费电子时代。
AI发展的重心已经不可阻挡地从“语言智能”转向了“空间智能”。
想象空间:我们看到了什么?
消费领域
当3D感知能力降到百元级别,会直接引爆智能穿戴、智能家居等新品类的爆发。未来的AI设备,可能像今天的手机一样,成为每个人生活中离不开的必需品。
工业领域
低成本的空间智能将彻底改造智能制造和物流仓储,成为企业降本增效的核心引擎。
社会价值
将为老年人、残障人士等有切实需要的群体,提供更便利、更自主的生活方式,真正推动AI技术普惠到每一个人。
如果说前两年,大模型以“博学多识”震撼了我们;那么未来几年,AI将以它在物理世界中的“灵巧”和“自主行动”能力,重新定义什么叫“智能”。
我们正在亲眼见证AI完成一次根本性的转变:从一个擅长对话的“大脑”,进化成一个能看懂、能动手、能融入真实世界的“智能体”。
在这场全球竞赛中,技术路线的重构、成本的大幅降低、以及实际应用的落地,正在共同推动具身智能走向它的“iPhone时刻”,那个真正走进千家万户的爆发临界点。
那2026年,我们能做些什么?又从哪里开始呢?
你可以看:
“到印尼办厂子去” ,AI只能给建议,行动还得跟着咱们东莞“鑫旺”走!
来源详情:
CES 2026超前瞻:空间智能来势汹汹!从实验室奢侈品到消费级刚需,如何重塑 AI 具身时代?
“人工智能+产业”,空间因“您”而变!
合作沟通:请加 zr18620222480
链接分享:请发至1638079312@qq.com

