多模态大模型(MLLM)的推理能力正在飞速进化,从看图解题到代码生成,似乎无所不能。然而,在面对现实世界中复杂的动态空间交互时,即便是最顶尖的模型也常常会“犯迷糊”。它们或许能识别图像中的物体,却难以理解物体之间的相对位置、运动方向和空间变化——而这正是模型走向物理世界的关键一环。
为了推动“空间认知”这一前沿领域研究,蚂蚁集团 inclusionAI团队的研究者们开源了 M2-Reasoning-7B。这是一款专为统一通用推理(如数学、逻辑)和空间推理(如运动、方位、物理交互)而设计的7B规模多模态大模型。
凭借创新的数据构建流水线和动态多任务训练策略,M2-Reasoning-7B 在8个主流的通用及空间推理基准上取得了SOTA(State-of-the-Art)成绩,在多个榜单上超越了InternVL3-8B、WeThink-VL-7B等同量级强手,甚至在部分空间能力上展现出媲美 Gemini-1.5-pro 的潜力。
模型地址:
https://huggingface.co/inclusionAI/M2-Reasoning
代码地址:
https://github.com/inclusionAI/M2-Reasoning
技术报告:
https://arxiv.org/abs/2507.08306
M2-Reasoning-7B在通用和空间推理基准上的
综合性能表现
近年来,以 SFT(监督微调)和 RLVR(基于可验证奖励的强化学习)为代表的两阶段训练范式,极大地释放了 LLM 的推理潜能。这一成功路径也被快速迁移到多模态领域,催生了众多强大的 MLLM。
然而,研究团队发现,现有模型虽然在处理静态的、基于文本和图像的抽象问题上表现出色,但在理解动态、连续的空间变化时却捉襟见肘。例如,它们很难准确回答“视频中哪个物体先出现?”或“估算一下这个房间的面积有多大?”这类需要综合空间感知和时间序列理解的问题。这种能力的缺失,严重限制了 MLLM 在自动驾驶、机器人交互、AR/VR 等真实场景中的应用。
M2-Reasoning的诞生,正是为了解决这一核心痛点。
M2-Reasoning模型架构图
M2-Reasoning 的卓越性能,得益于两大相辅相成的创新:一套高质量的数据构建流水线和一种精细化的动态训练策略。
1
高质量“喂养”:29万样本的数据流水线
高质量的数据是模型能力的基石。由于缺乏兼具通用和空间推理的训练数据,团队首先设计了一套多阶段数据合成与管理流水线,共生成了294.2K高质量样本。
通用推理数据(268K)
为激发模型深层思考,团队设计了一套高质量多模态思维链(CoT)合成流水线。该流程不仅利用强模型生成推理过程,还引入了自动评估框架,从“答案准确性”和“推理质量”(如结构合理性、认知引导性、验证丰富度)等维度对思维链进行打分和筛选,确保用于训练的数据都是“优等生”。此外,团队还对数据进行了难度评分,为后续的课程学习奠定基础。
空间推理数据(26.2K)
为了让模型“看懂”空间,团队基于真实图像和模拟视频,精心构建了包含10种细分任务的空间推理数据集。这些任务覆盖了从物体计数、相对距离、绝对尺寸等静态图像理解,到房间大小估算、物体出现顺序、相对运动方向等动态视频理解。在数据生成过程中,团队设计了精巧的过滤规则,以确保问题的明确性。例如,在生成“A、B、C哪个离参照物更近?”这类问题时,会自动过滤掉距离相近、易产生歧义的物体组合。
M2-Reasoning-7B的训练数据构成
2
精细化“调教”:动态训练与定制化奖励
有了优质数据,如何让模型高效学习是另一个挑战。M2-Reasoning 采用了一种先进的训练框架,其核心是“动态”与“定制”。
两阶段训练
首先通过冷启动 SFT,在大量高质量思维链数据上进行训练,初步激活模型的推理能力并规范输出格式。随后进入动态多任务 RLVR 阶段,利用强化学习让模型学会生成正确的推理过程。
动态优化与课程学习
在RLVR阶段,模型按照“从易到难”的顺序学习(课程学习)。同时,训练框架会动态调整样本权重,对那些难度适中、能为模型提供最有效学习信号的样本给予更高关注。此外,KL惩罚系数也采用余弦退火策略进行动态调整,确保训练过程稳定高效。
任务定制化的奖励函数
(Reward Formulation)
这是 M2-Reasoning 的一个精妙设计。对于通用推理题,奖励机制基于规则进行严格的对错判断。但对于空间推理任务,比如估算距离或尺寸,要求模型一开始就给出精确答案是不现实的。为此,团队设计了一种名为“指数衰减数值匹配”(Exponential Decay Numeric Matching, EDNM)的奖励函数。它不再是简单的“非对即错”二元奖励,而是一个平滑的连续函数。当模型的预测值与真实值接近时,即使不完全相等,也能获得较高的部分奖励。这种“宽容”的奖励机制能够为模型提供持续、有效的学习信号,引导其逐步逼近正确答案。
EDNM奖励函数可视化
在全面的实验评估中,M2-Reasoning-7B展现了其强大的综合实力。
在通用推理领域,M2-Reasoning 在 MathVista、MathVision、DynaMath等 6 个主流数学和逻辑推理基准上,取得了 45.0 的平均分,超越了 WeThink-VL-7B(44.3)和 InternVL3-8B(41.4)等模型。
在空间推理领域,M2-Reasoning 的表现同样惊艳。
在基于图像的CV-Bench基准上,它在关系、深度和距离三个子任务上取得最高分,综合得分达到82.3,略超InternVL3-8B,登顶榜首。
在更具挑战性的、基于视频的VSI-Bench基准上,M2-Reasoning的平均分达到42.3,超越了 InternVL3-8B(42.1),仅次于闭源的Gemini-1.5-pro(45.4)。尤其值得一提的是,它在“房间大小估算”(Room Size)和“相对方向判断”(Relative Direction)这两个极具挑战性的细分任务上创造了新的 SOTA 记录,充分证明了其在动态场景下强大的空间想象与分析能力。
以下是M2-Reasoning模型在一些任务上的实际表现:
M2-Reasoning-7B的成功,清晰地展示了一条通往更强MLLM的有效路径:通过高质量、目标导向的数据构建和精细化、动态化的训练策略,可以有效弥补现有模型在特定认知维度(如空间推理)上的短板,从而实现更全面的智能。
研究团队也坦言,模型目前仍存在一些局限,例如推理链条相比纯文本模型较短,偶尔会出现重复性输出和视觉感知错误。这些都将是他们未来工作的重点。
M2-Reasoning-7B的开源,为社区提供了一个强大的、兼具通用与空间推理能力的基础模型,无疑将推动多模态技术在更多真实世界场景中的探索与应用。

