HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？- 大数跨境

首页

HuggingFace CEO力荐，Bengio团队也押注：这个1500美元训出的HRM模型，凭什么火了？

量子位

2026-06-13

导读：模型参数量只有1B

一个训练成本仅约 1500 美元、参数量约 1B、从零开始预训练的小模型，正将 HRM（分层推理模型）推向下一代推理架构讨论的中心。

HuggingFace 联合创始人兼 CEO Clem Delangue 亲自转发推荐，图灵奖得主 Yoshua Bengio 作为共同作者参与的新论文也走向了同一条潜空间递归推理路线。

更反常的是，它不是蒸馏，不是微调，也不是在已有大模型能力上套壳。它就是 Sapient Intelligence 发布的 HRM-Text。

HRM-Text 真正值得注意的并非其“小”或“便宜”，而是其背后的 HRM 架构提出了一个更底层的问题：模型到底需要记住全世界，还是需要学会如何思考、查找、验证与行动？

过去几年，大模型行业的默认路径是参数更多、数据更多、训练更久。而 HRM 选择了一条不同的路：不再将模型做成巨大的知识仓库，而是将其打造为更强的推理核心。大模型像背着图书馆的学生，HRM 则更像会解题、查资料、复盘和行动的人。

让技术圈认真讨论 HRM-Text 的，是一组反常的数据：一个约 1B 参数的模型，在 MATH 上得分 56.2，GSM8K 上 84.5，ARC-Challenge 上 81.9，DROP 上 82.2。其训练成本约 1500 美元，仅用 16 块 H100 运行不到两天。

该模型没有 post-training，没有 RLHF，也不依赖显式思维链数据。团队同步开放了论文、模型权重和预训练代码。这意味着 HRM-Text 不是在现有大模型能力上做包装，而是在基础预训练阶段直接验证一种新的架构路线。

这是一次推理模型的“换脑”实验：不让模型说出更多思维链，而是让模型在开口之前，先在脑子里想完。

这一路线很快引发了高层级学术讨论。HRM-Text 发布前后，Yoshua Bengio 参与发布了《Generative Recursive Reasoning》。论文提出的 GRAM 在核心计算结构上高度复用了 HRM 的分层递归骨架：同样是高层状态、低层状态、双时间尺度、多轮递归更新，并在此基础上加入了概率生成模块。

Sapient 没有等待行业给出答案，而是率先拿出了可运行、可开源、可验证的模型系统，抛出了关键问题：模型能否在输出之前，通过潜空间中的多轮分层递归计算，完成更深层的内部推理？

知识不等于智能，CoT 也不等于思考

当前的推理模型往往是在“边说边想”。Chain-of-Thought（CoT）将推理过程写成一串 token，让模型逐步输出中间过程。这虽然有用，但也存在明显弊端：Token 越长成本越高；中间一步出错可能导致后续全盘皆错；更关键的是，推理过程被绑定在语言表面，模型容易学到“像推理的文本”，却未真正掌握“推理的结构”。

HRM 提出了一个更激进的问题：推理为什么一定要写出来？人类解题时，并非将脑内每一步都说成一句话，而是在脑中反复尝试、修正、排除、回退，最后才给出答案。HRM 旨在将“草稿纸”从嘴上拿下来，放回模型的脑子里。

这就是潜空间推理（latent reasoning）。Sapient 押注的从来不是“小模型”，而是 HRM（Hierarchical Reasoning Model，分层推理模型）。当大多数团队围绕 Transformer 优化参数和数据时，Sapient 选择重新设计模型架构本身。

HRM 的核心思想是：让模型在输出之前，能够在潜空间中进行多轮、分层、递归的状态更新。

2025 年，Sapient 推出 HRM-Symbolic，面向数独、迷宫、ARC-AGI 等封闭、可验证的强推理任务。实验证明，在封闭任务中，分层递归推理路线是可行的。

HRM-Text 则回答了更难的问题：当任务进入自然语言世界，HRM 是否依然有效？语言比数独更开放、模糊且知识密集。HRM-Text 的意义在于验证分层递归推理这套架构能否进入基础语言模型。

从 HRM-Symbolic 到 HRM-Text，Sapient 完成了一条技术路线的连续推进：先在封闭任务中验证架构假设，再扩展到开放语言环境，并同步开源论文、代码和权重，供行业复现与验证。

HRM 的核心：模型内部长出两个“脑区”

标准 Transformer 类似流水线，输入层层处理后输出。HRM 的思路则是在模型内部放置两个以不同节奏工作的模块：高层模块 H 和低层模块 L。

H 是“战略脑”，更新慢，负责把握整体方向、维持长期上下文；L 是“执行脑”，更新快，负责局部计算和细节修正。关键在于，H 和 L 并非两个外部 Agent，而是在同一个神经网络、同一个潜空间中，反复更新同一份内部状态。

普通多智能体系统往往是几个 LLM 用自然语言互相聊天，而 HRM 是在模型内部完成分层递归计算。可以比喻为：标准 Transformer 像文章依次交给 30 个编辑每人改一次；HRM 则像两组编辑反复打磨同一份稿子，一组快改细节，一组慢控方向。

HRM-Text 与普通小模型的最大区别在于：它不是靠参数数量获得能力，而是让有限参数参与更深的有效计算。HuggingFace 模型卡将其描述为 H/L 双时间尺度递归架构，在同一输入 embedding 上反复迭代，从而在有限参数量下获得更深的计算深度。

它改变的是模型“怎么算”。参数未无限变大，但计算过程变深了。

HRM-Text 做对了什么？

HRM-Text 的成功可归纳为三点：

第一，改变了模型“怎么算”。HRM-Text 让模型在输出前做多轮内部递归计算，使计算过程变深而非单纯堆叠层数。

第二，改变了模型“学什么”。大多数语言模型训练时预测整个文本序列。HRM-Text 使用 instruction-response 数据从零训练，但只对回答部分计算损失。指令部分作为上下文参与注意力计算，但不作为预测目标。配合 PrefixLM attention mask，在 decoder-only 实现中达到了近似 encoder-decoder 的效果，使训练信号更集中于任务完成而非平均分散在整段文本中。

第三，解决了递归训练容易崩溃的问题。递归越深，训练越不稳定。HRM-Text 引入 MagicNorm 和 warmup deep credit assignment，让模型在多轮递归中保持激活稳定，并逐步加深信用分配。即先让模型学会短路径上的内部计算，再将责任扩展到更深的推理过程。

这三者共同作用：架构负责“怎么想”，目标负责“学什么”，训练方法负责“想得深还不崩”。

数据显示，在相同训练 FLOPs 条件下，ARC-Challenge 从 51.9 提升至 81.9，MATH 从 35.4 提升至 56.2，GSM8K 从 48.4 提升至 84.5。这证明表现提升来自架构、目标和训练方法的系统设计。

数据量方面，HRM-Text 仅使用约 40B unique tokens 训练（含重复采样约 60B tokens）。相比之下，Llama 3.2 3B 使用约 9T tokens（是其 225 倍），Qwen3 系列 2B 使用约 36T tokens（是其 900 倍）。

但在多个重推理基准测试中，HRM-Text 已能与一批 2B 到 7B 的主流开源模型同台竞技。

HRM-Text 的反常之处在于：它不是用更多参数和数据推动旧路线，而是用新的计算结构拉起了有限参数的有效计算深度。针对数据污染质疑，Sapient 进行了严格验证，在 clean split 条件下模型仍保持优势，证明其表现源于架构和方法本身的提升。

更大的信号：Bengio 团队走向同一条路

图灵奖得主 Yoshua Bengio 参与发布的 GRAM（Generative Recursive Reasoning Models）是一个重要信号。该论文并非在传统 Transformer 上堆规模，而是将递归推理、潜空间推理和生成建模结合。

GRAM 在核心计算骨架上高度复用了 HRM 的设计：包括高层状态、低层状态、双时间尺度、潜空间递归以及输出前的内部计算。若去掉 GRAM 外层新增的概率生成模块，其底层逻辑与 HRM 高度重合。

GRAM 在 HRM 的确定性递归骨架之上，加入了 prior、posterior、decoder 等概率生成模块，扩展成概率化、多轨迹的生成式推理框架。如果说 HRM 验证了“高层—低层双时间尺度递归推理”路线，GRAM 则在此基础上增加了 generative probabilistic wrapper。

这表明 Sapient 不仅参与了下一代推理模型的讨论，更提前给出了一个正在被顶尖研究者复用和扩展的基本结构。HRM 已不只是一个架构名词，而成为下一代推理模型研究的参照系。

AI 推理正在从“写出思维链”转向“形成内部思维结构”。下一代推理模型不应只靠输出更长文字，而应在潜空间进行更深内部计算。

1500 美元打破的不仅是训练成本

1500 美元并不意味着基础模型研发变得简单，HRM-Text 目前仍是概念验证（Proof of Concept），尚未经过完整的产品化验证。但这个数字刺痛行业的地方在于：它让基础模型研发出现了另一种可能性。

过去几年，基础模型研发日益重工业化，导致行业形成惯性：只有巨头才能探索新架构，Scaling 是唯一正解。HRM-Text 提醒行业：Scaling 不是唯一入口。

如果模型架构能提高效率、训练目标更聚焦、知识与推理能力解耦，那么基础模型创新就不必仅由算力规模定义。对企业而言，HRM-Text 提供的启发是：AI 能力建设不必完全依赖更大模型和更重基础设施，特定任务上可获得更高效、可控的推理能力。

对研究社区而言，HRM-Text 让更多架构假设有机会被验证，避免了因资源门槛过高而过滤掉早期、冒险但具突破性的技术路线。Sapient 率先将前沿 AI 路径做成可检验样本，证明了架构、训练目标和开源验证同样是推动前沿 AI 的关键力量。

HRM-Text 的价值不在于证明小模型取代大模型，而在于提醒行业：前沿 AI 不应该只有一种入口。

HRM 的下一步：不是更会聊天，而是更会工作

Sapient 对 HRM 的长期判断是：模型不需要记住一切，但需要学会如何思考、查找、学习和使用信息。这就是“推理 - 知识解耦”（reasoning-knowledge decoupling）。

HRM 的目标是拥有一个更强的推理核心：知道查什么、去哪查、如何判断信息可靠性、如何制定计划、调用工具并验证结果。这与人更接近：聪明的人并非背下所有知识，而是懂得问题的结构和解决方法。

未来，HRM 可作为底层推理内核（Reasoning Core），扮演多种角色：

Reliability Diagnostician：诊断系统稳定性，分析依赖关系并执行安全修复。
System Optimizer：发现性能瓶颈，自动提出或执行优化计划。
Data Organizer：将企业内部杂乱知识组织成可检索、可推理的记忆系统。
Tool Calling Director：规划工具调用顺序，验证中间结果直至任务完成。

聊天模型关注“怎么回答”，HRM 关注“怎么完成任务”。这可能改变企业构建 AI 能力的方式：底层是更强的推理核心，外部接入知识库和工具，模型无需记住一切，但需知道如何组织任务和验证结果。

HRM 的下一步，不只是更会聊天，而是更会工作。

从符号到文本，再到世界模型

HRM 的路线不止于语言。Sapient 先从符号推理（数独、迷宫等）证明分层递归推理可行，再推进到 HRM-Text 进入自然语言模型。下一步自然是图像、视频、音频、机器人及世界模型。

HRM 处理的是更底层的状态、关系、约束、计划和反馈，具备全模态（omni-modal）潜力。符号、文本、传感器数据本质上都可变为模型内部的状态空间。如果 HRM 能在不同模态中学习“如何组织状态、预测变化、规划行动”，它可能成为世界模型的一种候选架构。

这对具身智能（embodied AI）至关重要。机器人需要理解环境、预测后果、制定动作并修正失败。输出一句漂亮的话没有意义，真正重要的是：想清楚，然后做对。

HRM-Text 是 Sapient 将 HRM 从符号推理推向开放语言环境的阶段性验证。若路线成立，HRM 将迈向更广义的世界建模。

Lean General Intelligence：AI 的未来不该只有一条路

HRM 背后是 Sapient 对通用智能的长期判断：先进 AI 的探索不应是被资源规模加固的单一路径，而应是多方共同推进的技术进程。Sapient 将此概括为“精益通用智能”（Lean General Intelligence）。

这里的 Lean 意指更高效、更可及、更强调计算结构本身。当训练成本和复杂度越来越高时，继续扩大模型并非唯一答案。HRM 给出的方案是：不让模型背下更多知识，而是拥有更强推理核心；不让模型输出更长 CoT，而是在潜空间完成更深计算。

HRM-Text 最重要的意义在于证明 AI 架构远未定型。如果说过去几年的主线是 Scaling，那么接下来的问题是：模型到底要更大，还是要更会思考？

Sapient 的答案是 HRM。HRM-Text 是这条路线进入基础语言模型语境后的公开样本。它提醒行业：AI 的未来不应该只有一条路。更大的模型会继续重要，但更会思考的模型，可能是下一轮推理架构真正的入口。

从 HRM-Symbolic 到 HRM-Text，再到 Bengio 团队对 HRM 骨架的高度复用，分层递归推理正成为下一代推理模型的重要方向。Sapient Intelligence 正是在这条新路上最早给出完整答案的先行者之一。

论文链接：https://arxiv.org/abs/2605.20613
GitHub 链接：https://github.com/sapientinc/HRM-Text
HuggingFace 链接：https://huggingface.co/sapientinc/HRM-Text-1B

【声明】内容源于网络

量子位

各类跨境出海行业相关资讯

内容 16129

粉丝 1

量子位各类跨境出海行业相关资讯

总阅读261.7k

粉丝1

内容16.1k