近日,位于 AI 开源阵营的 Nous Research 发布了其最新的语言模型系列——Hermes4,在性能上不输 ChatGPT 等闭源巨头,却赋予用户前所未有的自由与控制。本文将从技术原理、性能对比、训练机制、安全观念、电商方式等多维度进行解读,带你一窥 Hermes 4 的“野心与态度”。
一、开源阵营的新旗帜:Hermes 4 正式亮相
Nous Research 是一家以 “开源大模型 + 去中心化训练” 为核心的 AI 研究机构 / 初创公司,成立于 2023 年,总部位于纽约;已披露融资超 7000 万美元,A 轮后代币估值约 10 亿美元,由 Paradigm 领投。
其主打产品 Hermes 模型系列近年来屡获关注,而最新登场的 Hermes 4 系列(涵盖 14B、70B、405B 参数)更被定位为“无安全策略的高性能模型”,挑战 OpenAI、Google、Anthropic 等商业系统。
二、“混合推理”:兼顾速度与思考深度的新交互方式
Hermes 4 的一大创新是“混合推理(hybrid reasoning)”机制:用户可通过<think>…</think>标签开启模型的“深度思考”,让 AI 展示其内部分析过程并再给出答案;不加标签,则可获得快速响应。此模式既保证效率,也透明可调,堪称开源界的思维链(Chain-of-Thought)示例。
三、赛场表现:数理推理与“拒答”能力双双领先
在测试中,Hermes 4 在多个数学推理基准上表现卓越。405B 模型推理模式下,在 MATH-500 上取得96.3%,AIME’24 达81.9%,可比肩甚至超越许多商业系统。
尤其在新评估基准RefusalBench上,Hermes 4 的“拒答率”极低——405B 推理模式下拒绝率仅57.1%,相比 GPT-4o(17.67%)和 Claude Sonnet 4(17%)更愿意回应用户请求。
四、数据与训练机制:DataForge 与 Atropos 架构解密
DataForge:图结构合成数据生成系统
Nous Research 使用名为 DataForge 的图结构合成数据工具,通过 Directed Acyclic Graph(DAG)机制自动生成复杂训练样本。例如,可将维基百科文章转换为 rap 歌词,再由此生成问答对。该系统为 Hermes 4 生成了约 500 万个样本,19 亿 tokens,其中推理样本 token 数比非推理样本高出 5 倍。
Atropos:千验证器的大规模拒绝采样训练
无人研究的训练平台 Atropos 搭建了超过 1000 个任务特定验证环境,包括格式验证、工具使用、JSON 架构遵守等,通过“拒绝采样”机制筛选模型生成的高质量推理轨迹,并构建强大的推理训练集。
长度控制:防止推理无限延伸
为解决模型过长链式思考问题,Nous 实施了第二阶段监督微调,训练模型在达到 30,000 tokens 时准确终止推理。该方法使 Hermes 4 在 AIME’24、LiveCodeBench 等基准上分别减少超长生成 78%、79%,但准确率仅小幅下降 (4.7%–12.7%)。
五、安全观与可控性:“烦人”的安全策略就是创新绊脚石
Nous Research 主张开放、可引导的 AI 方针,强调传统商业 AI 的安全策略“烦人又扼杀创新”。Hermes 4 在去掉严格内容限制的同时,强调用户对模型行为的直接控制。该观点由投资人 Tommy Shaughnessy 表述,并称:“如果开源却对请求拒之门外,那毫无意义” (VentureBeat)。这种“中立对齐(neutral alignment)+ 高可引导性(steerability)”的组合是 Hermes 4 的核心价值主张。
六、模型获取方式与发布渠道
Hermes 4 模型权重已通过 Hugging Face 公开发布,同时 Nous 提供 API 接入新版聊天界面,并与推理平台如 Chutes、Nebius、Luminal 合作,方便开发者和研究者使用。
七、意义与思考:开源势力的又一重大宣言
Hermes 4 的发布不仅是技术成就:其标志着开源社区能够通过创新设计、透明训练和高效率方法,追赶乃至超越巨头模型。Nous Research 用行动证明:未来 AI 的控制权,不必只掌握在商业堡垒中。Hermes 4 在性能和自由度之间取得平衡,也为 AI 伦理、开放与商业模式带来新思考。
结语
Hermes 4 是 Nous Research 的又一次大胆“宣言”:它挑战了商业 AI 的框条式管理,展示了开源模型同样能具备顶级思维能力。未来,AI 的“谁在控制”可能不再是一家公司,而是一种开放、透明与用户可控并重的新范式。

