随着人工智能技术的不断发展,具身智能和自动驾驶领域逐渐成为研究热点。然而,这两个领域长期以来存在着明显的界限,缺乏一个统一的模型能够同时处理具身智能和自动驾驶任务。小米MiMo-Embodied团队的出现打破了这一局限,推出了全球首个开源的跨领域具身大模型MiMo-Embodied。它不仅在具身智能领域表现出色,还为自动驾驶领域带来了新的突破。
一、项目概述
MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型,是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型(VLM)。该模型在环境感知、任务规划、空间理解等多方面展现出卓越性能,覆盖了17个具身智能基准测试和12个自动驾驶基准测试,显著超越了现有的开源、闭源以及领域专用模型。
二、核心功能
(一)跨领域整合能力
MiMo-Embodied是首个成功整合自动驾驶与具身智能任务的模型,覆盖环境感知、任务规划、空间理解等核心能力,适用于复杂动态环境中的多模态交互。
(二)环境感知
在自动驾驶场景中,模型能精准理解交通场景,包括识别交通标志、车辆、行人等关键元素,并预测其动态行为,为安全驾驶提供支持。
(三)任务规划与执行
在具身智能领域,MiMo-Embodied能根据自然语言指令生成可执行的动作序列,完成复杂的任务规划,如机器人导航与操作。
(四)空间理解与推理
模型具备强大的空间推理能力,能理解物体之间的空间关系,支持导航、交互和场景理解等任务,适用于机器人操作和自动驾驶中的路径规划。
(五)多模态交互
通过视觉和语言的深度融合,MiMo-Embodied能处理图像、视频和文本输入,支持多模态任务,如视觉问答、指令遵循和场景描述。
三、技术揭秘
(一)跨领域融合架构
MiMo-Embodied采用统一的视觉语言模型(VLM)架构,将自动驾驶和具身智能任务整合到一个模型中。通过视觉编码器、投影器和大语言模型(LLM),实现视觉输入与文本理解的深度融合。其架构包括三个主要组件:
1. Vision Transformer(ViT):用于编码各种类型的视觉输入,包括单图像、多图像和视频。
2. 投影器(Projector):将视觉编码映射到与LLM对齐的潜在空间,使用多层感知机(MLP)实现。
3. LLM:负责文本理解、推理和输出生成,将视觉输入与语言指令结合,生成与任务相关的响应和决策。
(二)多阶段训练策略
MiMo-Embodied通过四阶段训练策略逐步提升性能:
1. 具身智能监督微调:在具身智能数据上进行监督学习,优化交叉熵损失,提升任务规划、空间理解等能力。
2. 自动驾驶监督微调:在自动驾驶数据上进行监督学习,扩展到轨迹规划、感知和状态预测任务。
3. 链式推理(CoT)监督学习:通过显式推理痕迹监督,将任务分解为多步、可解释的逻辑,提升复杂推理能力。
4. 强化学习微调:应用Group Relative Policy Optimization(GRPO)算法,优化任务和接地目标的预期回报,提升决策质量和可靠性。
(三)数据驱动的跨领域学习
构建了涵盖通用视觉语言理解、具身智能和自动驾驶场景的多样化数据集,为模型提供丰富的多模态监督信号。数据集包括:
1.通用数据集:基于MiMo-VL的训练语料库,包含高分辨率图像、视频、长文本等,覆盖感知、推理和交互能力。
2.具身智能数据集:专注于可操作性预测、任务规划和空间理解,涵盖PixMo-Points、RoboAfford等数据集。
3.自动驾驶数据集:包括环境感知、状态预测和驾驶规划任务,如DriveLM、nuScenes-QA等。
四、性能表现
(一)具身智能基准测试
MiMo-Embodied在17个具身智能基准测试中创下新纪录,涵盖任务规划、可操作性预测和空间理解。例如,在RoboRefIt基准测试中,MiMo-Embodied的准确率达到82.3%,显著优于其他开源和专用模型。

(二)自动驾驶基准测试
在自动驾驶领域,MiMo-Embodied在12个基准测试中表现出色,涵盖环境感知、状态预测和驾驶规划。例如,在nuScenes-QA基准测试中,MiMo-Embodied的准确率达到56.71%,超越了现有的开源和闭源模型。
五、应用场景
(一)自动驾驶
MiMo-Embodied能够处理复杂的交通场景,进行环境感知、状态预测和驾驶规划,适用于城市道路、高速公路等多种自动驾驶场景,为智能驾驶系统提供决策支持。例如,在复杂的交通路口,模型可以准确感知交通标志、车辆和行人的动态行为,并生成安全高效的驾驶规划。
(二)机器人导航与操作
在具身智能领域,MiMo-Embodied可以根据自然语言指令完成室内导航、物体操作等任务,支持机器人在家庭、工业等环境中的自主行动。例如,机器人可以根据指令“将书架上的书放到桌子上”,准确识别目标物体和目标位置,并生成相应的操作序列。
(三)视觉问答与交互
适用于视觉问答(VQA)任务,MiMo-Embodied能够理解图像或视频内容并回答相关问题,支持人机交互中的信息检索和解释。例如,用户可以上传一张图片并询问“图片中有哪些动物”,模型能够准确识别并回答。
(四)场景理解与描述
模型能够对复杂场景进行语义理解并生成描述,适用于安防监控、智能交通等领域的场景分析。例如,在安防监控场景中,模型可以实时分析监控视频,生成场景描述并及时发现异常行为。
(五)多模态任务执行
支持多模态输入,如图像、视频和文本,能够处理跨模态任务,如指令遵循、图像标注等,适用于智能助手和自动化系统。例如,用户可以通过语音指令让模型识别图片中的物体并标注出来。
(六)复杂环境中的任务规划
在复杂环境中,MiMo-Embodied能够根据指令生成多步任务规划,支持机器人完成清洁、烹饪等复杂任务。例如,在家庭环境中,机器人可以根据指令“清洁客厅并准备晚餐”,生成一系列任务规划并逐步执行。
六、快速使用
(一)安装依赖
安装相关依赖
git clone https://github.com/XiaomiMiMo/MiMo-Embodiedcd MiMo-Embodiedpip install -r requirements.txt
(二)模型推理
模型推理示例如下:
import torchfrom transformers import Qwen2_5_VLForConditionalGeneration, AutoProcessorfrom qwen_vl_utils import process_vision_infomodel_path = "MiMo-XFM HF ckpt path"model = Qwen2_5_VLForConditionalGeneration.from_pretrained(model_path, torch_dtype="auto", device_map="auto")# default processorprocessor = AutoProcessor.from_pretrained(model_path)# thinking modemessages = [{"role": "user","content": [{"type": "image","image": "assets/demo.jpg",},{"type": "text", "text": "which book is cloest to the camera?"},],}]# no think mode# messages = [# {# "role": "user",# "content": [# {# "type": "image",# "image": "assets/demo.jpg",# },# {"type": "text", "text": "which book is cloest to the camera? /no_think"},# ],# }# ]# Preparation for inferencetext = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)image_inputs, video_inputs = process_vision_info(messages)inputs = processor(text=[text],images=image_inputs,videos=video_inputs,padding=True,return_tensors="pt",)inputs = inputs.to(model.device)# Inference: Generation of the outputgenerated_ids = model.generate(**inputs, max_new_tokens=4096)generated_ids_trimmed = [out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)]output_text = processor.batch_decode(generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False)print(output_text[0])
七、结语
小米MiMo-Embodied作为全球首个开源的跨领域具身大模型,成功整合了自动驾驶和具身智能两大领域的任务,展现出卓越的多模态交互能力和跨领域泛化能力。它不仅在多个基准测试中取得了优异的成绩,还为研究者和开发者提供了一个强大的开源工具,推动了具身智能和自动驾驶领域的创新。
项目地址
GitHub仓库:https://github.com/XiaomiMiMo/MiMo-Embodied
Hugging Face模型库:https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B
arXiv技术论文:https://arxiv.org/pdf/2511.16518
点亮“关注”,设为“星标”,精彩不迷路!与你携手探索AI的无限可能,精彩内容持续更新!🚀

