近日,Meta首席AI科学家杨立昆在MIT (麻省理工学院)生成式AI影响联盟研讨会上进行了一场圆桌对话。本次对话探讨了深度学习的崛起,以及杨立昆在2016年提出的著名“蛋糕比喻”——该比喻如何将行业焦点从强化学习引向自监督学习。本次对话中,杨立昆详细阐述了他对当前大语言模型的批判性观点,并深入介绍了被他视为通往人类水平智能(HLI)的真正路径——联合嵌入预测架构(JEPA)和世界模型。双方还讨论了AI在机器人领域的应用、AI安全伦理的可控性,以及对下一代AI研究者的建议。
杨立昆认为,仅靠文本训练的大预言模型是通往人类水平智能的“死胡同”。他指出,真正的智能,核心在于对物理世界的理解和预测能力,这是大预言模型所缺乏的。人类通过高带宽的感官(如视觉)学习到的信息量远超大预言模型的文本数据。在未来三到五年内,世界模型将成为 AI 架构的主导模型。
关于人形机器人行业,杨立昆直言,没有一家公司知道如何让机器人变得足够智能以实现通用性,它们都在等待AI的下一次突破。
01
真正的智能系统必须能够自我构建,而非依赖人类转录知识
你在1987年的博士论文奠定了反向传播算法的基础,而当时的主流是专家系统。是什么启发你在那个“非主流”的时刻选择了连接主义学习模型?这个选择又是如何推动你的职业生涯的?
Yann LeCun: 也许是出于天真或无知。我读本科时,一次偶然的机会发现,在 50 年代和 60 年代,包括 MIT 在内的一些人,就已经在思考自组织的问题,这也催生了“机器可以学习”的早期理念。我被这个想法深深吸引,因为我认为生物学是我们许多工程成就的灵感来源。在自然界中,所有生物都具备适应能力,所有具备神经系统的生物都能够学习。所以当时我想,也许我,或者说整个人类,都不够聪明,无法设计出一个智能系统,一个真正的智能系统必须能够自我构建。因此我转向了机器学习。但出于天真和无知,我当时并不知道,主流的 AI 研究方法对机器学习毫无兴趣。正如你所说,当时是专家系统的时代。人们所做的就是把专家的知识转录成规则和事实,并期望这样能派上用场。如今的LLMs也面临类似问题,我们试图将人类知识转录到可供我们交互和对话的机器中,虽然现在这是通过学习实现的,但这在很大程度上仍然是将知识从人类传递给机器的一大瓶颈。
我发现这是一个非常冷门的想法,但我坚信这是正确的方向。我当时很难找到博士生导师,因为根本没人在做这个研究。后来,我找到了一位非常好的绅士,Maurice Milgram,他说:“你看起来足够聪明,你不需要任何资助,因为你已经有工程学院的津贴了,”然后他说:“我在技术上帮不了你,但我可以帮你签文件。”
02
“蛋糕比喻”:强化学习只是樱桃,自监督学习才是蛋糕主体
行业经历了“AI寒冬”后,你于2013年加入Facebook创立了FAIR。2016年,当业界非常专注于强化学习时,你在NeurIPS演讲中提出了著名的“蛋糕比喻”,将行业的注意力引向了你所说的自监督学习。你能否谈谈那个比喻,以及为什么当时你认为自监督学习远比强化学习更重要?
Yann LeCun: 那大概是 2015、2016 年的时候。当时,深度学习彻底改变了计算机视觉和语音识别,这一点已是共识,并且它即将彻底改变自然语言处理,但(NLP 领域的)变革才刚开始。当时业界主要使用的是监督学习。在研究层面,很多人相信——比如 DeepMind 当时正大力投入于此,通往更强大 AI 系统的路径是强化学习。我从未相信这一点,如果将强化学习作为主要组成部分的话。因为它在机器所需试验次数方面效率极低。所以我展示了那个“蛋糕比喻”,这个比喻实际上早于那次演讲。
我在 2015 年在 NYU 组织的一次研讨会上首次展示了它,但在 2016 年的 NeurIPS 上,我试图向整个社区推广这个理念。这个比喻是:如果你把 AI 智能想象成一个蛋糕,那么蛋糕的主体必须是自监督学习、无监督学习,或者我当时称之为“预测性学习”。蛋糕上的糖霜是监督学习,而蛋糕尖上的樱桃才是强化学习。你希望尽可能少地使用强化学习,因为它实在太低效了。当然,你终究需要它;你需要某种自我纠正的方式。但它真的只应该是最后的手段。
我当时(大约 10 年前)提倡的是,我们应该训练机器去捕捉数据内部的依赖关系,而不是为了某个特定任务去训练它,这样它就能建立对世界的表征。而这仅仅需要从未标记的数据中观察。在此基础上,你可以利用系统学到的表征,训练它去解决某个特定任务,或任何任务。自监督学习的整个理念,我们中一些人从 2000 年代就开始研究了,但当时它有点未受重视,我们使用的技术效果也并不好。在 2000 年代末,我尝试将其应用于视频预测,也就是输入一段视频,训练系统预测接下来会发生什么。但基本上失败了。然而,它在自然语言理解领域的应用效果却好得出乎意料。也就是输入一个符号序列,然后尝试预测下一个符号。这个方法非常有效。
那么,为什么它对文本或符号序列有效,而对视频无效呢?答案是,你永远无法精确预测一个词序列之后的下一个词,但你可以预测一个覆盖字典中所有可能词汇或 tokens 的分布。因为词汇或 tokens 的数量是有限的,所以表征一个分布是容易的。但当涉及预测视频的未来时,一段视频中存在太多可能的未来,以至于我们基本上无法表征所有这些可能性。如果我拍摄一段这个房间的视频,平移镜头,然后停在这里,我让系统补全后续的视频,它无法弄清楚这里每个人的长相,也无法知道有多少人坐着,房间有多大。它当然也无法预测地面的纹理这类事物。有太多东西是完全不可预测的。如果你训练一个系统去预测所有这些细节,这个模型是训练不出来的。此路不通。所以我们花了很多年时间,直到大约五年前,才意识到这条路走不通,我们必须发明新技术。
03
为何LLM是“死胡同”
你在自监督学习方面的工作以及 Transformer 奠定了如今几乎所有 LLMs 的基础。快进到今天,ChatGPT 改变了世界,Llama 极大地推动了 AI 的民主化。
Yann LeCun: 我得坦白一件事,在 Llama 的技术层面,我个人基本没怎么参与。第一个 Llama 版本实际上有点像一个“非官方项目”。
在 2022 年中到年底,它与 Meta 内部一个更官方的 LLM项目是并行推进的。当时巴黎有一个大约十几人的小团队,他们只是想构建一个轻量级、高效的 LLM,然后他们就做出来了。这最终在 2023 年初成为了主力模型,并促使 Mark Zuckerberg 成立了 GenAI 组织——现在称为 Meta Superintelligence Lab——来将其产品化。但在技术层面,我个人确实没怎么参与。
尽管(非官方的)创新项目往往就是这样脱颖而出,而且大公司正在投入巨额的资本支出,但你却说过,LLMs 实际上是通向人类水平智能的一条死胡同。你能否澄清一下,为什么所有这些Scaling Law都无法解决这个问题?
Yann LeCun: 这正与我刚才谈到的内容相关。我们可以做一个有趣的计算。一个典型的 LLM,比如 Llama 3,其训练数据量级约为 30 万亿个 tokens 。一个 token 通常是 3 字节,那么训练一个典型的 LLM 大约需要100 TB字节的数据。现在可能更多,因为人们还使用了合成数据等数据。这还只是预训练阶段。我们任何一个人,大概需要花 40 万到 50 万年才能读完所有这些材料,这几乎是互联网上所有的公开文本。现在,我们来对比一下人类在生命前四年通过视觉皮层获取的信息量。一个四岁的孩子,清醒时间总共约为 16,000 小时。信息通过我们的视神经传入视觉皮层,我们有 200 万根视神经纤维,每根纤维每秒大约传输 1 字节。这总共大约是每秒 2 兆字节,乘以 16,000 小时,结果大约也是100 TB字节。一个四岁的孩子通过视觉所接收的数据量,与一个在所有公开文本上训练的最大的 LLM相当。
这告诉我们,首先,我们遗漏了关键环节:我们需要 AI 系统能从自然的、高带宽的感官数据中学习,比如视频。仅靠文本训练,我们永远无法达到人类水平的智能。这是不可能实现的。不管你从硅谷的某些狂热信徒 那里听到了什么,他们可能会告诉你:“到明年,我们将在数据中心里建成一个,一个由天才组成的国度。” 我是在引用原话。我就不点名是谁了。但这根本不可能发生。诚然,你未来会得到一些有用的“工件”,它们可以在日常生活中帮助人们,甚至可能让你觉得它们拥有博士般的智力,但这只是因为它们在复述训练中见过的知识。这些系统并不具备我们所期望的真正智能,甚至连你家猫的智能水平都达不到。
家猫对物理世界有着惊人的理解力,而它们的大脑只有 8 亿个神经元,并不算多。但它们对物理世界显然有着非常好的理解。它们能规划复杂的动作。而我们还远未达到它们的水平。这正是我感兴趣的地方:我们如何弥合这一差距?我们如何让系统学会构建物理世界的模型?这将需要新的架构,而不是生成式架构。所以我告诉人们:“不要再研究生成式模型了。” 他们都觉得我疯了,但我对此深信不疑。而且正如你所说,我正试图保持领先。
04
JEPA:在表征空间中预测,而非在像素空间中生成
你已经开始着手研究你称之为 JEPA 的架构。能否告诉我们,JEPA 与 LLMs 在根本上有何不同?目前在哪些应用中,JEPA 已经最先展现出了早期潜力?
Yann LeCun: JEPA 是联合嵌入预测架构 (Joint Embedding Predictive Architecture) 的缩写。我们研究这类架构已经有五年左右了。我在 2022 年发表了一篇长篇论文,算是一篇愿景论文,阐述了我认为未来 10 年 AI 研究的未来方向。这篇论文发表在 OpenReview 上,题为“通往自主机器智能的路径”。我在这篇论文里为(JEPA)奠定了基础。从那时起,我和我在 Meta 及 NYU 的许多同事一直在朝着这个计划努力。如果你在谷歌学术上搜索带引号的 "Joint Embedding Predictive Architectures",大约能找到 750 篇相关论文。所以有很多人在研究这个方向,而且主要是在学术界。人们总是很快地忽视学术界的贡献,认为所有 AI 研究现在都掌握在业界手中。这是错误的。
我知道MIT 不这么认为。但学术界倾向于研究下一代技术,而业界往往在 5 到 10 年后才意识到这些技术将对他们产生巨大影响。
那么,JEPA 和LLMs或生成式架构到底有什么区别呢?对于生成式架构,你拿一块数据,比如一段文本序列,然后以某种方式破坏数据,比如遮掉一些词。然后你训练一个大型神经网络来预测被遮掉的词。在 LLMs或特别是 GPT 架构中,有一个技巧:你实际上不需要刻意破坏文本。这种架构的特性是它具有因果性,因此在预测某个特定词时,架构决定了系统只能看到它左侧的词。所以,当你训练系统在输出端重建输入序列时,你实际上就在隐式地训练它预测下一个 token。这种方式非常高效,易于并行化等等。这就是生成式架构。它之所以有效,是因为 tokens 是离散的,数量有限,你可以训练系统生成一个覆盖所有可能 tokens 的分布。LLMs就是这样做的。然后你就可以用它来进行自回归预测:让它预测下一个 token,将这个预测结果移入输入端,再预测下一个,以此类推。
但我的论点是,你不能对视频使用同样的方法。因为即使你对视频进行 Token 化,仍然会有大量信息是根本无法预测的——比如这个房间里每个人的长相细节,你就是无法预测。所以 JEPA 的理念是,你拿到视频后,先将其编码到一个表征空间中,在这个空间里,大量(不可预测的)细节被剔除了。然后,我们之前在输入空间中进行的自回归预测,现在改为在这个表征空间中进行。这里的难点在于——这也是为什么它没有更早出现的原因——同时训练编码器和预测器非常棘手。因为预测器很容易迫使编码器“躺平”,即忽略输入,只产生一个恒定的输出表征。这样一来,预测任务就变得极其简单,但这显然不是一个好的解决方案。因此,你必须设计机制引导系统,使其在表征中既要携带尽可能多的关于输入的信息,同时又要消除那些不可预测的细节。系统在“尽可能多地携带输入信息”和“只携带可预测信息”之间找到了一个权衡。这就是 JEPA 的基本概念。
在架构上,它有一个编码器,这与你在 LLMs中看到的有所不同。其技巧在于找到好的训练算法,或者说好的训练流程或正则化器,来引导它学习到有意义的表征。直到最近,我们才逐渐看清,这种联合嵌入方法在学习图像、视频等自然数据表征方面,是否最终会优于那些试图在像素级别进行重建的技术。在 FAIR,我们进行了一项 AB 比较,当时有一个大团队在研究一个名为 MAE (Masked Auto Encoder,掩码自编码器) 的项目。
以及它的视频版本。基本思路是:获取一张图像,对其进行破坏,然后训练一个庞大的神经网络来重建完整的图像或视频。但这个方法并不太成功。事实上,在 MIT,你可以去问 Kaiming He,他曾是这个项目的主要负责人之一。他对结果感到有些失望,并最终调整了研究方向,离开了 FAIR (Meta 人工智能研究部),加入了 MIT 任教。他现在是 MIT CSAIL (计算机科学与人工智能实验室) 的副教授。因此,与此同时,还有其他项目试图训练联合嵌入架构,但并不试图重建图像,也就是非生成式架构。事实证明,这些方法的效果要好得多。
这为我们提供了明确的经验证据,即对于自然的感官数据,我们不应该使用生成式架构。现在的数据显示,在图像处理方面,这些系统的性能甚至超过了监督模型,而这种情况直到大约一年前才出现。
(关于JEPA的早期应用)我在 FAIR 巴黎的一些同事推出了一个开源系统,叫做 DINO。他们发音是“Dino”,但因为他们是法国人,所以读作“Dino”。最近一两个月刚发布了 DINO V3,即第三个版本。这基本上是一个通用的自我监督视觉编码器,即图像编码器,可以用于各种下游应用。现在已经有数百篇论文在使用 DINO 系统 (包括早期版本和当前版本) 来处理各种任务:医学图像分析、生物图像分析、天文学,以及日常的计算机视觉。所以我认为这才是真正的自我监督学习模型;它虽然花费了很长时间,但最终在图像和视频表示领域赢得了这场“战斗”。
另一个我更直接参与的项目叫做 V-JEPA,全称是 Video JEPA (视频联合嵌入预测架构)。这是我与蒙特利尔、巴黎和纽约的一组同事共同完成的。这个系统是基于视频进行训练的。具体来说,我们获取一段视频,通过遮蔽掉其中一大块内容来破坏它,然后训练一个架构——让完整的视频和被部分遮蔽的视频通过两个基本相同的编码器——同时训练一个预测器,让它根据被部分遮蔽的、损坏的视频来预测完整视频的表示。这就是训练的第一个阶段。我们用来训练这个系统的数据量,相当于播放一个世纪时长的视频。这是一个极其惊人的数量。
显然,它的学习效率不如一个四岁的孩子。但这些系统,基本上可以证明它们学到了一点常识。如果你给它们看一段包含不可能发生的事情的视频,比如一个物体突然消失或改变形状,预测错误率就会急剧飙升。这样,它们就能告诉你发生了一些非常不寻常、它们无法理解的事情。这是自我监督学习系统开始获得常识的最初迹象。
05
为何人形机器人行业在“裸泳”
你提到 V-JEPA 能学到常识,那你是否已经在机器人领域看到了基于这种世界模型的早期成功?我了解到你们有一个机器人似乎是自我监督训练了62个小时,这是否就是你所说的应用?这是否意味着未来十年将是机器人技术的时代,尽管目前的人形机器人行业似乎还未准备好?
Yann LeCun: 没错。我们可以进入第二个训练阶段,即训练并微调一个预测器,这个预测器是基于动作条件化的。这样你得到的就是一个世界模型。什么是世界模型?就是在给定 T 时刻世界状态的表示,以及一个 AI Agent 设想将要执行的动作时,你能否预测执行该动作后导致的世界状态?这就是世界模型。如果你拥有一个具备这种世界模型的系统,就可以用它来进行规划。你可以设想执行一系列动作,然后使用世界模型来预测这一系列动作将会产生什么结果。
接着,你可以设定一个成本函数,用于衡量特定任务(比如是否煮好了咖啡)的完成程度。然后,基本通过优化方法,搜索一个能优化该目标 (即最小化成本) 的动作序列。这就是经典的规划和最优控制。不同之处在于,我们使用的环境动态模型是通过自我监督学习得到的,而不是像传统机器人或经典最优控制那样,通过一堆方程式来预先定义。这正是我们追求的目标。我们已经证明,无论是使用像 DINO 那样系统导出的世界状态表示,还是从头开始学习,或是在 V-JEPA、V-JEPA 2 的基础上学习,我们都能做到这一点。你可以证明,利用这个模型能让机器人在零样本的情况下完成任务。你不需要为这个特定任务训练它。完全不需要训练,也不需要强化学习。训练过程是完全自我监督的。最终,系统拥有一个足够好的世界模型,它可以在没有经过任何相关训练的情况下,自行构想出如何完成一项任务。
(关于机器人的具体训练)那 62 个小时的训练并非针对某个特定任务。训练内容基本上是:这是 T 时刻的世界状态,这是执行的动作,这是动作执行后世界的状态。你可以使用带有机器人模拟器的模拟数据来完成,也可以使用真实数据,比如让一个机械臂四处移动,同时记录它执行了什么动作。我在 2016 年 NeurIPS 的主题演讲中就谈到过世界模型这个概念,我认为它将成为未来 AI 系统的关键组成部分。我一直以来的预测是——这个观点让我在硅谷(包括在 Meta 内部)树敌不少——在未来三到五年内,这将成为 AI 架构的主导模型,到那时,任何头脑清醒的人都不会再使用我们今天这种类型的大语言模型了。
(关于机器人时代的前景)过去几年涌现了大量制造人形机器人的机器人公司。然而,这个行业的一个巨大秘密是,没有一家公司知道如何让那些机器人变得足够智能,以至于真正有用。或者我应该说,足够智能以至于具有通用性。我们可以训练那些机器人执行特定任务,比如在制造业或类似场景中。但是,要想让家用机器人成为现实,AI 领域还需要一系列的突破。因此,这些公司中很多家的未来,本质上取决于我们是否能在“世界模型加规划”这类架构上取得重大进展。
06
AI安全与给青年的建议
你对AI的未来一直非常乐观,而许多人正感到恐惧。为什么你认为这些系统不会失控?此外,回到起点,如果你今天是MIT的博士生,你会研究什么?
Yann LeCun: 我一直倡导的 AI 系统整体架构,我称之为目标驱动。这个理念是,系统拥有一个关于世界的心智模型,它会规划一系列动作来达成一个目标、完成一项任务。根据这种构造,系统除了生成优化该目标的动作序列外,什么也做不了。现在,你可以在这个目标中硬编码植入护栏。比方说,你有一个新的家用机器人,你让它“给我拿杯咖啡”。它走到咖啡机前,发现有个人挡在前面。你肯定不希望机器人为了拿到咖啡,就去攻击那个挡在咖啡机前的人。尽管它唯一的“目标”就是给你拿咖啡。
顺便一提,像 Stuart Russell 这样的人就喜欢用这个例子来说明我们可能会造出多么危险的机器。我一直不认同这种看法,而他总觉得我很蠢。他甚至在一些采访中公开说我愚蠢。我已经习惯了,没关系。很多人都说我蠢。
也许未来某个时候吧 (我们会再对话)。但重点是,你可以在系统的目标函数中设置护栏,即硬编码的护栏,这些护栏可以是非常底层的。比如,你有一个会做饭的家用机器人,你可以设置一个非常底层的护栏:“当你手里拿着一把大刀时,如果周围有人,就不要挥舞手臂。” 诸如此类的规则。所以我们必须去设计这些护栏。但从构造上讲,系统将无法逾越这些护栏,它必须遵守它们。
我并不是说设计这些护栏是件容易的事,但我们对人类也做同样的事情。我们制定法律。法律本质上就是目标函数,它们改变了你可采取行动的范围,以及你采取每项行动所需付出的成本。我们制定法律,是为了让人类行为与公共利益保持一致。我们甚至对那些被称为“公司”的超人类实体也这样做,尽管我承认成效有限。我们对这类问题并不陌生,几千年来我们一直在处理它。我认为,这个问题并不比设计出能载着你安全飞越半个地球的涡轮喷气发动机更复杂、更具挑战性。我们人类已经完成了许多这类了不起的壮举。所以我真的不担心。我不是说这是个简单的问题,我只是不认为它无法解决。
(关于给博士生的建议)这个问题我经常被问到,“如果你是本科生,你会学什么?” 或者 “你会研究什么?” 我认为,在过去四五十年里,探索人类智能的奥秘始终是核心。MIT 非常注重工程实践,作为一名工程师,我认为理解一件事物的最好方法就是亲手把它造出来,Richard Feynman 实际上也这么说过。当然,他指的不是制造一个物理实体,而是指自己亲手推导那些思想,并真正内化它们。如果你是一个有抱负的年轻科学家或工程师,我认为有三个大问题值得研究。第一,“宇宙是由什么构成的?”;第二,“生命的本质是什么?”;第三,“大脑是如何工作的?” 这三个是科学问题。而与之对应的工程问题,至少对最后一个问题而言,就是“我们如何构建智能机器?” 构成智能的基本要素是什么?所需的最小组件集又是什么?人们在生物学、合成生物学等领域也在研究类似的问题。我很可能还是会选择在这个领域工作,就像我四五十年前做出的决定一样。
但如果我是一名本科生,人们现在会问自己:“AI 即将到来,它会包揽所有底层的事务,我们是不是就不需要再学习那些东西了?” 我认为,作为工程或科学专业的学生,确实有些东西我们不必再学了,那就是那些保质期很短的技术。
我常开玩笑说,如果你在学习计算机科学或某个工程学科,你面临两个选择:一门课教你当下流行的技术,比如移动应用编程,或者 LLM 提示;我敢肯定在其他工程学科里也有类似的时髦课程。别选那些课。
如果你可以在移动应用编程和量子力学之间选择,请选择量子力学。即使你是学计算机的。因为你将学到像路径积分 (path integrals) 这样的东西。这是一种适用于各种情况的通用方法,是一个你可以用来连接其他事物的概念。事实证明,在语音识别系统中,如何最好地解码出最可能的词序列,其本质上就是一个路径积分。虽然是离散的,但基本概念是相通的。正是这类基础理论概念,它们是能够广泛应用于不同领域的抽象。所以,去选那些有挑战性的课程,它们会让你走上一条正确的道路。
也许未来的 AI 助手会处理掉底层的事务。你可以把自己想象成一个博士生导师,他带着一群博士生,而业界的秘密是,学生在教导师,而不是反过来。你作为一名学生,也将处于同样的情境:在你攻读博士期间,你将拥有一群虚拟的员工为你工作,即 AI 助手。这会将你自己的抽象层次 提升好几个等级,这样你就不用再去操心很多底层细节了。过去,你靠给 DNA 测序就能拿到博士学位,现在不一定了,我们有机器来做这件事。过去,你可以作为一名数学家,职业就是计算对数表和三角函数表,现在也不需要了,我们有计算器和电脑。或者用手进行符号计算来解微分方程,我们现在都用数值方法来解。这只是技术进步的自然延续,人类在认知层级上不断攀升,把低层次的工作留给机器。
关于我们
具身智能®是智能科学发展的新范式
“具身智能®”是西安中科光电精密工程有限公司用于转载智能科学、机器人技术及具身智能®领域研究进展的微信公众号平台,致力于传播前沿资讯与深度洞察。
“具身智能®机器人”公众号作为原创内容平台,定期发布关于具身智能®的核心观点、技术突破及行业趋势分析,旨在推动智能科学与机器人技术的深度融合与创新发展。诚挚邀请您加入“具身智能®”与“具身智能®机器人”线上平台,共同探索智能科技的未来。
公司的核心优势在于:
原创理论:2019年基于科技部重大专项基金的支持,突破具身智能®底层理论,突破“物理空间小样本条件下精细结构识别”科学问题,让机器“理解”空间,解决“精准智能识别”和 “自主智能规划”两大核心技术。原创理论的特点:数学架构,“边”端布局,对数据、算力要求低。
该突破是智能科学底层关键问题——“四维时空感知、理解并自主运动规划”的基本路径;是链接大语言模型与运动执行系统(人形机器人、机器狗、无人车),通达通用人工智能的桥梁。
技术能力及技术成熟度:智能识别(对象的精准识别能力)-识别准确率100%(基于已经验数学语言);精准操控(精细结构的理解和处理能力)-物品及物品细节特征精准识别,不确定对象中的焊接场景精度0.5mm,精密装配场景精度10μm;复杂场景的自主的运动规划及移动规划(新场景的适应能力)—场景模型导入或一次性信息摄入,能快速布置在新场景中使用,具有基于地形学及知识图谱处理未知场景的能力,工业、军用、家庭场景均适用。
成果应用情况:基于具身智能®技术架构指导的智能机器人,已实际应用于自主智能工业机器人产品及国家重大任务中,解决了多项核心难题;具身智能®视觉终端,可用于电磁拒止环境下无人机、无人车基于地形与空间分析的自主导航,用于通用人形机器人导航与精准操控。自主智能工业机器人在面向离散制造领域的不确定对象中的焊接、装配、检测等场景中实现批量落地应用;国家重大任务中,自主机器人可在非结构化场景中实现自主识别、自主规划、自主决策以及自适应控制,已得到实质性验证。
未来,我们将继续深耕具身智能®领域,以技术创新为驱动,以产业应用为目标,持续引领智能科学与机器人技术的发展方向。加入我们,共同见证具身智能®改变世界的无限可能!
公司网址:http://www.xa-elecopt.com
关注我们
吴易明.何为“具身智能”?.具身智能机器人公众号,2023
吴易明.汉字创生过程隐含智能的底层密码.具身智能机器人公众号.2025
吴易明.仝人-具身智能词条1:具身性.具身智能机器人公众号.2025
吴易明.仝人-具身智能词条2:指称.具身智能机器人公众号.2025
吴易明.仝人-具身智能词条3:视觉.具身智能机器人公众号.2025
吴易明.儿童画:从歪歪扭扭的线条,看懂人类如何学会理解世界.具身智能机器人公众号.2025
吴易明.具身认知视角下“智能”的概念.具身智能公众号.2022
看累了吗?戳一下“点赞或推荐”支持我们吧

