近期,“具身智能”走红出圈,备受关注。那么,究竟什么是具身智能?它包括哪些类别与关键技术?本文带你一探究竟。
什么是具身智能
“智能”即人工智能(AI)。那么,什么是“具身”呢?
“具身”(Embodied)是哲学与认知科学领域的专业术语。其英文源自前缀“em-”(表示“进入,使……”)和词根“-body”(表示“身体”)所组成的embody(意为“使……进入身体”)。因此,Embodied Intelligence(具身智能),顾名思义,就是“使智能进入身体”的意思。
那么,具身智能,是不是等同于“AI+身体”呢?这一表述并不准确。根据业界共识——具身智能是一种基于物理身体进行感知和行动的智能系统,其核心特征在于能够“与环境进行交互,在交互中不断调整优化”。它通过实体智能体与环境的交互,获取信息、理解问题、做出决策,并实现行动,从而产生智能行为和适应性。
本体、智能、环境,被称为具身智能的三要素。AI领域权威学者李飞飞曾强调:“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”
具身智能的三要素
与“具身智能”相对应的是“离身智能”(Disembodied Intelligence,智能和身体分离、解耦)。以手机和电脑为例,其运行的大模型(例如DeepSeek)或虚拟智能体(AI Agent)擅长处理文字、图片、视频等数据,能够与用户进行信息交互,但手机和电脑的感知能力很弱,且行动能力几乎为零,无法实现与环境的动态交互。这种智能就不是具身智能,而是离身智能。只有同时具备了AI大脑、感知能力、行动能力的“身体”,并可与外部环境进行实时互动,才是真正的具身智能。
具身智能发展历程
具身智能的起源可追溯到1950年。彼时,著名科学家艾伦・图灵发表了经典的《计算机器与智能》一文,在该论文中,图灵展望了人工智能未来可能的两种发展途径:一种是面向抽象任务的智能(如下棋、写文章);另一种则是拥有最好的感官、能学习甚至能说英语的智能。这两者则分别对应了离身智能和具身智能。
世界上第一个机器人
尤尼梅特(Unimate)
1986年,被誉为“具身智能之父”的美国计算机科学家罗德尼・布鲁克斯,提出了一种全新的智能理念。他认为,智能并非一定要依赖于复杂的符号表征和推理,智能体可通过与环境进行直接的物理交互,以一种更加简单、有效的方式产生智能行为。这一理念为具身智能的发展提供了重要的理论支撑。
罗德尼・布鲁克斯
与他开发的机器人
进入21世纪,随着信息技术、电子工程、传感器技术以及机械制造等领域的高速发展,发展具身智能所需的基础条件逐渐成熟。一方面,AI浪潮兴起,功能强大的大模型和智能体实现对大量的感知数据进行高效学习与处理。另一方面,传统的自动化机械,引入强大的AGI(通用人工智能)大脑,可提升其泛化能力,使机器真正变得聪明,从而极大地扩大了应用场景和范围。至此,具身智能迎来真正爆发。可以说,具身智能是AI发展到一定阶段的产物,是一种新的AI范式。
2024年,工业和信息化部印发《人形机器人创新发展指导意见》,明确提出推动人形机器人产业高质量发展的要求。2025年,具身智能被写入政府工作报告,提出要“培育具身智能产业”和“大力发展智能机器人”。
在政策与资本的双重驱动下,具身智能全面爆发。业界普遍认为,具身智能有望成为继PC、智能手机、新能源汽车之后的下一个典型智能终端,带来颠覆性的产业升级机会。
具身智能的类别
具身智能的类别非常多。从功能上,可以分为工业机器人、服务机器人、特种机器人等。从形态上,又可以分为人形机器人、轮式机器人、多足机器人等。
各类具身机器人
人形机器人:人形机器人拥有类似人类的身体结构,这使其能够更为便捷地使用门把手、楼梯、工具等各类设施,适应人类工作场景;此外,人形机器人在交互方面也具备天然优势,它们可以通过模仿人类的表情、动作与人类交流,可广泛应用于家庭服务、医疗护理、工业生产、物流分拣、零售服务等场景。
轮式机器人:轮式机器人主要依靠轮子实现移动,常见于仓储物流、巡检安防等领域。这类机器人的主要优点在于移动速度较快,能够在仓库或工厂中快速穿梭,完成货物的搬运、分拣等工作。同时,它们具备良好的环境感知能力,能够在复杂环境中自主导航和避障。
多足机器人:多足机器人模仿了昆虫或爬行动物的行走方式,具备较强的地形适应能力,其灵活性和稳定性更为突出,可在崎岖不平的山路、废墟等环境中自由行走,执行勘探、救援等任务。以机器狗为代表的四足机器人,还适合扮演AI宠物,用于家庭服务或特殊人群服务(如导盲)场景。
智能汽车/无人机/无人船等:它们通过传感器(摄像头、雷达等)实时感知周围环境,并利用AI算法进行数据处理和分析,从而实现自动驾驶、自主导航、自动避障等功能,符合具身智能的定义,本质上也属于具身智能。
除了以上几种常见类别外,具身智能还包括很多仿生形态,以适配不同的场景需求。
具身智能关键技术
业界通常将具身智能的技术体系分为环境感知模块、运动控制模块和人机交互模块等多个模块。从整体架构来看,又可将其分为本体、大脑和小脑。
具身智能技术架构
本体:包括头、躯干、四肢、关节、灵巧手等组成部分,本质上就是机械结构、传感器、执行器、驱动与能源系统、通信系统等,这一领域涉及的技术种类繁多。
具身智能本体
涉及的技术种类
大脑:从本质上讲,具身智能的大脑就是计算芯片和搭载的算法,负责具身智能的感知、理解和规划任务,主要由大语言模型、视觉语言动作(VLA)大模型来驱动。
小脑:负责将决策转化为具体动作,也就是运动控制和动作生成,主要通过运动控制算法、反馈控制系统来实现,关键技术包括模型预测控制(MPC)、力控与柔顺控制、实时响应优化等。
具身智能大脑、小脑
协同模式
具身智能面临的挑战
尽管具身智能目前的发展热度很高,但其发展仍面临诸多挑战。
技术层面:传感器环境感知准确性和鲁棒性不足,运动控制算法在稳定性控制方面有待提升。
数据层面:可训练具身智能的真实环境数据获取成本高昂,难以满足广泛、高质量与多样化的训练需求。
安全层面:公众对具身智能还存在顾虑——一方面担忧其被恶意操控,导致隐私泄露;另一方面担忧其具有自主意识可能对人类生存构成潜在威胁。
资金和人才层面:具身智能技术研发依赖长期的资金投入和高质量研发团队,存在较高的商业化风险。
此外,具身智能在工具链、标准化、伦理道德、能源效率等方面,也面临很多问题,未来仍需要很长时间研究和探索。
根据业界有关机构的数据,2023年,全球AI机器人市场规模达143亿美元,预计到2032年将达到824.7亿美元左右,复合年增长率高达21.5%。这是一个巨大的市场,既充满了挑战,也蕴含着无限机遇。
转自鲜枣课堂,仅用于学术分享,如有侵权留言删除

