CES展剧透：人型机器人能无微不至的照顾老人了？！- 大数跨境

首页

CES展剧透：人型机器人能无微不至的照顾老人了？！

变芯空间

2026-01-05

导读：为何敌不过一只苍蝇的空间直觉？无法理解三维空间的 AI，终究只是缺乏行动力的 “语言巨人”！

点“小耳机”可边听边看!

无法理解三维空间的 AI，终究是缺乏行动力的 “语言巨人”

为何敌不过一只苍蝇的空间直觉？

一个AI能在聊天时对答如流、写文章、解数学题，智商看起来很高；但把它装进一个机器人或智能眼镜里，它却连绕过一张椅子、判断一个物体离自己多远都做不好：笨手笨脚，像个“纸上谈兵的天才”。

当前AI的尴尬：语言能力很强，物理感知却很差。

一只苍蝇的脑子很小，根本不懂文字，但它能轻松在凌乱的房间里飞来飞去、快速避开障碍、稳稳停在某个地方。而我们的AI，哪怕用了万亿级的复杂计算，在真实空间里依然显得“又盲又笨”。

为什么会这样？

因为物理世界的“常识”，比如东西的远近、遮挡关系、重力影响，很难只从书本或文字中学到。动物天生就具备这种空间直觉，但AI还没有。

AI行业正在悄悄转向：

不再一味追求更大的语言模型，而是开始攻坚“空间智能”。

谁能先让AI低成本、快速地“感知”并理解周围的三维世界，谁就可能引领下一波真正的技术突破。

空间智能：AI 如何真正理解物理世界？

简单来说，“空间智能”就是让AI真正“看懂”世界的关键一步，

这不是普通的升级，而是给AI装上一个理解世界的“底层操作系统”。

为什么这么说呢？

李飞飞打了个比方：

空间智能就像是人类认知的“脚手架”。

想想婴儿是怎么认识世界的：

他们通过抓东西、爬来爬去，慢慢理解什么是远、什么是近、什么会被挡住、东西为什么会掉下去……

这种对空间的直觉，远在人类会说话、会写字之前就存在了。消防员在浓烟里能凭感觉判断房子会不会塌，也是靠这种刻在基因里的空间理解力。

现在的AI呢？

虽然能读万卷书、看百万图，却对真实世界里的空间关系一头雾水。让它预测一个杯子被推一下会怎么倒、几个物体之间谁挡着谁，它常常懵掉。AI和它该互动的物理世界，根本不在一个频道上。

要补上这堂课，得给AI搭建一个全新的“世界模型”。

它需要具备三种核心能力：

1、能“想象”出合理、符合物理规律的场景

（比如一个球滚下斜坡该是什么样子）；

2·、能同时理解文字、图像、动作等多种信息，并把它们联系起来；

3、能预测自己的行为会对周围环境产生什么影响。

这远比教会AI处理文字难得多，因为它需要让AI学会理解这个立体、动态、充满物理规则的真实世界。

一旦突破，AI就不再只是被动的“答题机器”了。

它会获得一种接近动物本能的“空间直觉”：

不仅能“看到”物体，还能理解它们为什么在那、彼此有什么关系、接下来可能会发生什么。这样的AI，才能真正在现实世界里自主行动、与人协作。

到那时，变化会是实实在在的：

自动驾驶能像老司机一样预判路况；机器人可以在杂乱仓库里灵活穿梭；手术机器人能更精准地辅助医生操作……

这不仅是技术升级，更是AI拿到在物理世界里安全、自由行动的“通行证”。

是选择“世界生成”还是“”空间决策“，还是两条腿一起走？

为了让AI获得真正的“空间智能”（即理解并适应三维世界的能力），目前行业主要分成了两大派别，它们像在攀登同一座山峰的两条路：

第一条路：造一个无限大的“虚拟训练场”
这派的想法是，既然在真实世界里收集数据又贵又慢，那不如用AI技术自己生成一个高度逼真、可以随意互动的虚拟世界。在这个数字世界里，机器人可以无限次地练习抓取、行走，游戏和电影也能获得无尽的3D素材。

谁在做：META在尝试给万物建立3D档案；李飞飞团队的“Marble”模型，不仅能理解3D场景，还能像“造物主”一样生成和修改它；中国的GIGA则擅长把普通的照片或视频快速变成高质量的3D场景。

这条路旨在提供了一个安全、廉价、可重复的“练兵场”，解决了真实数据不足的难题。

第二条路：给机器装上“实时反应大脑”
这派更着眼于当下，目标是让机器（如机器人、自动驾驶汽车）通过摄像头等传感器，在瞬息万变的真实环境里，立刻看懂周围、并做出安全精准的动作。

谁在做： 英伟达在研发让视觉信号直接指挥动作的模型，减少决策延迟；小鹏的智能驾驶，本质就是在复杂路况中做持续的空间决策；还有公司在研究让机器人“看到就能思考并行动”，或者只用普通摄像头就在小型设备上实现精确的3D感知。

第二条路直接决定了智能体能否走出实验室，在真实生活中及时、可靠地工作。竞争的关键是速度、精度、耗电和成本。

两者关系：不是对立，而是搭档
这两条路并不矛盾，反而相辅相成：

虚拟训练场（第一条路） 可以为 实时反应大脑（第二条路） 提供海量的模拟训练数据，让它提前见过各种情况。

而真实世界中遇到的挑战和新数据（来自第二条路），又能反过来帮助优化和修正虚拟世界，让它更符合物理规律。

简单来说，这场竞赛是AI在 “虚拟” 与 “现实” 之间搭建桥梁的努力。

最终目标是创造出既拥有丰富“空间常识”，又能在我们身边安全、灵活行动的真正智能体。

不管技术路线怎么走，整个行业都在朝着一个清晰的目标努力：

把曾经高高在上的“空间感知”能力，变得像水电煤一样便宜和普及。

“纯视觉”的空间感知之路能落地吗？

未来已来，而且它很可能会比我们想象的更便宜。

图源：机器之心公众号

纯靠视觉（摄像头）的方案，正在打破“3D感知=昂贵硬件”的魔咒。

过去，想让机器理解3D世界，就得砸钱，要么用多个高端摄像头，要么装几千美元的激光雷达。这使得相关技术只能用在实验室或高端工业场景。

但现在，情况正在改变。

一些美国AI巨头正用“大力出奇迹”的方式引领方向：

META SAM 3 (3D)：

目标是给世界万物做3D标记，就像给AI打造一本最全的“3D视觉字典”。

META 的 SuperSensing：

想让AI不仅能“看到”，还能“看透”物体的物理运动规律（比如一个球抛出去会怎么飞）。

NVIDIA NitroGen：

试图让机器人“看到就马上能行动”，跳过复杂的中间思考，实现视觉到动作的直接反应。

他们的路径很强大，但依赖于巨大的算力和昂贵的硬件，“堆料”是它们的主要打法，这自然也推高了成本。

另一种更“聪明”的破局者：消费电子品牌韶音（Shokz） 和AI公司联汇科技（OmAI） 联合推出的一款AI眼镜，展示了一条极具颠覆性的思路：

图源：机器之心公众号

它完全抛弃了昂贵的传感器，

仅仅依靠一个普通的单目RGB摄像头和内置的OmModel模型。

就能在小小的眼镜端，实时感知和理解周围的3D开放空间，并给出清晰的避障导航提示。

这对行业意味着什么？

对用户来说，这是一副轻便、能指导你在复杂环境中安全行走的智能眼镜。
但对整个产业而言，这是一次“降维打击”

它证明了：通过算法模型的优势，曾经高昂的3D空间感知能力，其硬件成本可以被降低到一个普通摄像头的水平。

“空间感知”的百元时代，或许真的不远了。

当这项能力变得足够便宜和轻便，它才能真正从实验室走进千家万户的日常生活。

图源：机器之心公众号

具身智能行业真的要迎来一个关键的“爆发前夜”？

过去大家比拼的是AI模型的参数大小，但现在和未来，比的是AI在真实世界里的“动手能力”。谁能让AI像生物一样灵巧地感知和行动，谁就掌握了下一个十年的机会。这个行业的“iPhone时刻”，也就是像智能手机那样引爆大众市场的转折点，很可能就从这次CES上展示的“空间感知成本大跳水”开始。

关键变化就这两点：

价格从“买不起”到“用得起”

当让机器看懂3D空间的成本，从几万元（依赖激光雷达）降到几百元（只靠摄像头和智能算法），一切都变了。不仅是为视障人士设计的导航眼镜，未来的扫地机器人、送货无人机、甚至家庭机器人，都将因此摆脱高昂硬件成本的束缚，真正走进普通家庭。

数据从“爬文字”到“看世界”

未来，谁能让AI在各种真实场景中实现“看得懂、能决策”的完整视觉能力，谁就掌握了物理世界最鲜活、最宝贵的数据流。这种基于真实交互产生的数据，其价值和壁垒，远远高于从网上爬取的文字数据。

一个清晰的判断：

未来3到5年，那些能在设备端（不依赖云端）、实时、精确地完成3D感知与决策的公司，将成为整个具身智能生态的 “核心引擎”。

它们的角色，将如同个人电脑时代的英特尔（Intel Inside），或智能手机时代的ARM芯片一样不可或缺。正是它们提供的平价、高效的“空间视觉”能力，才能推动智能机器和可穿戴设备普及千家万户，开启一个新的消费电子时代。

AI发展的重心已经不可阻挡地从“语言智能”转向了“空间智能”。

想象空间：我们看到了什么？

消费领域

当3D感知能力降到百元级别，会直接引爆智能穿戴、智能家居等新品类的爆发。未来的AI设备，可能像今天的手机一样，成为每个人生活中离不开的必需品。

工业领域

低成本的空间智能将彻底改造智能制造和物流仓储，成为企业降本增效的核心引擎。

社会价值

将为老年人、残障人士等有切实需要的群体，提供更便利、更自主的生活方式，真正推动AI技术普惠到每一个人。

如果说前两年，大模型以“博学多识”震撼了我们；那么未来几年，AI将以它在物理世界中的“灵巧”和“自主行动”能力，重新定义什么叫“智能”。

我们正在亲眼见证AI完成一次根本性的转变：从一个擅长对话的“大脑”，进化成一个能看懂、能动手、能融入真实世界的“智能体”。

在这场全球竞赛中，技术路线的重构、成本的大幅降低、以及实际应用的落地，正在共同推动具身智能走向它的“iPhone时刻”，那个真正走进千家万户的爆发临界点。

那2026年，我们能做些什么？又从哪里开始呢？

你可以看：

“到印尼办厂子去” ，AI只能给建议，行动还得跟着咱们东莞“鑫旺”走！

谁在真正解决生活痛点，谁又只是在风口之上贩卖昂贵的概念？

来源详情：

CES 2026超前瞻：空间智能来势汹汹！从实验室奢侈品到消费级刚需，如何重塑 AI 具身时代？

“人工智能+产业”，空间因“您”而变！

合作沟通：请加 zr18620222480

链接分享：请发至1638079312@qq.com

【声明】内容源于网络

变芯空间

内容 0

粉丝 0

变芯空间

总阅读0

粉丝0

内容0