大数跨境

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了?

HuggingFace CEO力荐,Bengio团队也押注:这个1500美元训出的HRM模型,凭什么火了? 量子位
2026-06-13
65
导读:模型参数量只有1B

一个训练成本仅约 1500 美元、参数量约 1B、从零开始预训练的小模型,正将 HRM(分层推理模型)推向下一代推理架构讨论的中心。

HuggingFace 联合创始人兼 CEO Clem Delangue 亲自转发推荐,图灵奖得主 Yoshua Bengio 作为共同作者参与的新论文也走向了同一条潜空间递归推理路线。

更反常的是,它不是蒸馏,不是微调,也不是在已有大模型能力上套壳。它就是 Sapient Intelligence 发布的 HRM-Text。

HRM-Text 真正值得注意的并非其“小”或“便宜”,而是其背后的 HRM 架构提出了一个更底层的问题:模型到底需要记住全世界,还是需要学会如何思考、查找、验证与行动?

过去几年,大模型行业的默认路径是参数更多、数据更多、训练更久。而 HRM 选择了一条不同的路:不再将模型做成巨大的知识仓库,而是将其打造为更强的推理核心。大模型像背着图书馆的学生,HRM 则更像会解题、查资料、复盘和行动的人。

让技术圈认真讨论 HRM-Text 的,是一组反常的数据:一个约 1B 参数的模型,在 MATH 上得分 56.2,GSM8K 上 84.5,ARC-Challenge 上 81.9,DROP 上 82.2。其训练成本约 1500 美元,仅用 16 块 H100 运行不到两天。

该模型没有 post-training,没有 RLHF,也不依赖显式思维链数据。团队同步开放了论文、模型权重和预训练代码。这意味着 HRM-Text 不是在现有大模型能力上做包装,而是在基础预训练阶段直接验证一种新的架构路线。

这是一次推理模型的“换脑”实验:不让模型说出更多思维链,而是让模型在开口之前,先在脑子里想完。

这一路线很快引发了高层级学术讨论。HRM-Text 发布前后,Yoshua Bengio 参与发布了《Generative Recursive Reasoning》。论文提出的 GRAM 在核心计算结构上高度复用了 HRM 的分层递归骨架:同样是高层状态、低层状态、双时间尺度、多轮递归更新,并在此基础上加入了概率生成模块。

Sapient 没有等待行业给出答案,而是率先拿出了可运行、可开源、可验证的模型系统,抛出了关键问题:模型能否在输出之前,通过潜空间中的多轮分层递归计算,完成更深层的内部推理?

知识不等于智能,CoT 也不等于思考

当前的推理模型往往是在“边说边想”。Chain-of-Thought(CoT)将推理过程写成一串 token,让模型逐步输出中间过程。这虽然有用,但也存在明显弊端:Token 越长成本越高;中间一步出错可能导致后续全盘皆错;更关键的是,推理过程被绑定在语言表面,模型容易学到“像推理的文本”,却未真正掌握“推理的结构”。

HRM 提出了一个更激进的问题:推理为什么一定要写出来?人类解题时,并非将脑内每一步都说成一句话,而是在脑中反复尝试、修正、排除、回退,最后才给出答案。HRM 旨在将“草稿纸”从嘴上拿下来,放回模型的脑子里。

这就是潜空间推理(latent reasoning)。Sapient 押注的从来不是“小模型”,而是 HRM(Hierarchical Reasoning Model,分层推理模型)。当大多数团队围绕 Transformer 优化参数和数据时,Sapient 选择重新设计模型架构本身。

HRM 的核心思想是:让模型在输出之前,能够在潜空间中进行多轮、分层、递归的状态更新。

2025 年,Sapient 推出 HRM-Symbolic,面向数独、迷宫、ARC-AGI 等封闭、可验证的强推理任务。实验证明,在封闭任务中,分层递归推理路线是可行的。

HRM-Text 则回答了更难的问题:当任务进入自然语言世界,HRM 是否依然有效?语言比数独更开放、模糊且知识密集。HRM-Text 的意义在于验证分层递归推理这套架构能否进入基础语言模型。

从 HRM-Symbolic 到 HRM-Text,Sapient 完成了一条技术路线的连续推进:先在封闭任务中验证架构假设,再扩展到开放语言环境,并同步开源论文、代码和权重,供行业复现与验证。

HRM 的核心:模型内部长出两个“脑区”

标准 Transformer 类似流水线,输入层层处理后输出。HRM 的思路则是在模型内部放置两个以不同节奏工作的模块:高层模块 H 和低层模块 L。

H 是“战略脑”,更新慢,负责把握整体方向、维持长期上下文;L 是“执行脑”,更新快,负责局部计算和细节修正。关键在于,H 和 L 并非两个外部 Agent,而是在同一个神经网络、同一个潜空间中,反复更新同一份内部状态。

普通多智能体系统往往是几个 LLM 用自然语言互相聊天,而 HRM 是在模型内部完成分层递归计算。可以比喻为:标准 Transformer 像文章依次交给 30 个编辑每人改一次;HRM 则像两组编辑反复打磨同一份稿子,一组快改细节,一组慢控方向。

HRM-Text 与普通小模型的最大区别在于:它不是靠参数数量获得能力,而是让有限参数参与更深的有效计算。HuggingFace 模型卡将其描述为 H/L 双时间尺度递归架构,在同一输入 embedding 上反复迭代,从而在有限参数量下获得更深的计算深度。

它改变的是模型“怎么算”。参数未无限变大,但计算过程变深了。

HRM-Text 做对了什么?

HRM-Text 的成功可归纳为三点:

第一,改变了模型“怎么算”。HRM-Text 让模型在输出前做多轮内部递归计算,使计算过程变深而非单纯堆叠层数。

第二,改变了模型“学什么”。大多数语言模型训练时预测整个文本序列。HRM-Text 使用 instruction-response 数据从零训练,但只对回答部分计算损失。指令部分作为上下文参与注意力计算,但不作为预测目标。配合 PrefixLM attention mask,在 decoder-only 实现中达到了近似 encoder-decoder 的效果,使训练信号更集中于任务完成而非平均分散在整段文本中。

第三,解决了递归训练容易崩溃的问题。递归越深,训练越不稳定。HRM-Text 引入 MagicNorm 和 warmup deep credit assignment,让模型在多轮递归中保持激活稳定,并逐步加深信用分配。即先让模型学会短路径上的内部计算,再将责任扩展到更深的推理过程。

这三者共同作用:架构负责“怎么想”,目标负责“学什么”,训练方法负责“想得深还不崩”。

数据显示,在相同训练 FLOPs 条件下,ARC-Challenge 从 51.9 提升至 81.9,MATH 从 35.4 提升至 56.2,GSM8K 从 48.4 提升至 84.5。这证明表现提升来自架构、目标和训练方法的系统设计。

数据量方面,HRM-Text 仅使用约 40B unique tokens 训练(含重复采样约 60B tokens)。相比之下,Llama 3.2 3B 使用约 9T tokens(是其 225 倍),Qwen3 系列 2B 使用约 36T tokens(是其 900 倍)。

但在多个重推理基准测试中,HRM-Text 已能与一批 2B 到 7B 的主流开源模型同台竞技。

HRM-Text 的反常之处在于:它不是用更多参数和数据推动旧路线,而是用新的计算结构拉起了有限参数的有效计算深度。针对数据污染质疑,Sapient 进行了严格验证,在 clean split 条件下模型仍保持优势,证明其表现源于架构和方法本身的提升。

更大的信号:Bengio 团队走向同一条路

图灵奖得主 Yoshua Bengio 参与发布的 GRAM(Generative Recursive Reasoning Models)是一个重要信号。该论文并非在传统 Transformer 上堆规模,而是将递归推理、潜空间推理和生成建模结合。

GRAM 在核心计算骨架上高度复用了 HRM 的设计:包括高层状态、低层状态、双时间尺度、潜空间递归以及输出前的内部计算。若去掉 GRAM 外层新增的概率生成模块,其底层逻辑与 HRM 高度重合。

GRAM 在 HRM 的确定性递归骨架之上,加入了 prior、posterior、decoder 等概率生成模块,扩展成概率化、多轨迹的生成式推理框架。如果说 HRM 验证了“高层—低层双时间尺度递归推理”路线,GRAM 则在此基础上增加了 generative probabilistic wrapper。

这表明 Sapient 不仅参与了下一代推理模型的讨论,更提前给出了一个正在被顶尖研究者复用和扩展的基本结构。HRM 已不只是一个架构名词,而成为下一代推理模型研究的参照系。

AI 推理正在从“写出思维链”转向“形成内部思维结构”。下一代推理模型不应只靠输出更长文字,而应在潜空间进行更深内部计算。

1500 美元打破的不仅是训练成本

1500 美元并不意味着基础模型研发变得简单,HRM-Text 目前仍是概念验证(Proof of Concept),尚未经过完整的产品化验证。但这个数字刺痛行业的地方在于:它让基础模型研发出现了另一种可能性。

过去几年,基础模型研发日益重工业化,导致行业形成惯性:只有巨头才能探索新架构,Scaling 是唯一正解。HRM-Text 提醒行业:Scaling 不是唯一入口。

如果模型架构能提高效率、训练目标更聚焦、知识与推理能力解耦,那么基础模型创新就不必仅由算力规模定义。对企业而言,HRM-Text 提供的启发是:AI 能力建设不必完全依赖更大模型和更重基础设施,特定任务上可获得更高效、可控的推理能力。

对研究社区而言,HRM-Text 让更多架构假设有机会被验证,避免了因资源门槛过高而过滤掉早期、冒险但具突破性的技术路线。Sapient 率先将前沿 AI 路径做成可检验样本,证明了架构、训练目标和开源验证同样是推动前沿 AI 的关键力量。

HRM-Text 的价值不在于证明小模型取代大模型,而在于提醒行业:前沿 AI 不应该只有一种入口。

HRM 的下一步:不是更会聊天,而是更会工作

Sapient 对 HRM 的长期判断是:模型不需要记住一切,但需要学会如何思考、查找、学习和使用信息。这就是“推理 - 知识解耦”(reasoning-knowledge decoupling)。

HRM 的目标是拥有一个更强的推理核心:知道查什么、去哪查、如何判断信息可靠性、如何制定计划、调用工具并验证结果。这与人更接近:聪明的人并非背下所有知识,而是懂得问题的结构和解决方法。

未来,HRM 可作为底层推理内核(Reasoning Core),扮演多种角色:

  • Reliability Diagnostician:诊断系统稳定性,分析依赖关系并执行安全修复。
  • System Optimizer:发现性能瓶颈,自动提出或执行优化计划。
  • Data Organizer:将企业内部杂乱知识组织成可检索、可推理的记忆系统。
  • Tool Calling Director:规划工具调用顺序,验证中间结果直至任务完成。

聊天模型关注“怎么回答”,HRM 关注“怎么完成任务”。这可能改变企业构建 AI 能力的方式:底层是更强的推理核心,外部接入知识库和工具,模型无需记住一切,但需知道如何组织任务和验证结果。

HRM 的下一步,不只是更会聊天,而是更会工作。

从符号到文本,再到世界模型

HRM 的路线不止于语言。Sapient 先从符号推理(数独、迷宫等)证明分层递归推理可行,再推进到 HRM-Text 进入自然语言模型。下一步自然是图像、视频、音频、机器人及世界模型。

HRM 处理的是更底层的状态、关系、约束、计划和反馈,具备全模态(omni-modal)潜力。符号、文本、传感器数据本质上都可变为模型内部的状态空间。如果 HRM 能在不同模态中学习“如何组织状态、预测变化、规划行动”,它可能成为世界模型的一种候选架构。

这对具身智能(embodied AI)至关重要。机器人需要理解环境、预测后果、制定动作并修正失败。输出一句漂亮的话没有意义,真正重要的是:想清楚,然后做对。

HRM-Text 是 Sapient 将 HRM 从符号推理推向开放语言环境的阶段性验证。若路线成立,HRM 将迈向更广义的世界建模。

Lean General Intelligence:AI 的未来不该只有一条路

HRM 背后是 Sapient 对通用智能的长期判断:先进 AI 的探索不应是被资源规模加固的单一路径,而应是多方共同推进的技术进程。Sapient 将此概括为“精益通用智能”(Lean General Intelligence)。

这里的 Lean 意指更高效、更可及、更强调计算结构本身。当训练成本和复杂度越来越高时,继续扩大模型并非唯一答案。HRM 给出的方案是:不让模型背下更多知识,而是拥有更强推理核心;不让模型输出更长 CoT,而是在潜空间完成更深计算。

HRM-Text 最重要的意义在于证明 AI 架构远未定型。如果说过去几年的主线是 Scaling,那么接下来的问题是:模型到底要更大,还是要更会思考?

Sapient 的答案是 HRM。HRM-Text 是这条路线进入基础语言模型语境后的公开样本。它提醒行业:AI 的未来不应该只有一条路。更大的模型会继续重要,但更会思考的模型,可能是下一轮推理架构真正的入口。

从 HRM-Symbolic 到 HRM-Text,再到 Bengio 团队对 HRM 骨架的高度复用,分层递归推理正成为下一代推理模型的重要方向。Sapient Intelligence 正是在这条新路上最早给出完整答案的先行者之一。

论文链接:https://arxiv.org/abs/2605.20613
GitHub 链接:https://github.com/sapientinc/HRM-Text
HuggingFace 链接:https://huggingface.co/sapientinc/HRM-Text-1B

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 16129
粉丝 1
量子位 各类跨境出海行业相关资讯
总阅读261.7k
粉丝1
内容16.1k