大数跨境

天旦开源Netis N1,Opus 4.5级别的运维根因分析能力

天旦开源Netis N1,Opus 4.5级别的运维根因分析能力 天旦Netis
2026-03-05
1
导读:天旦发布开源运维大模型 Netis N1,仅 320 亿参数即实现比肩万亿级旗舰模型 Claude Opus 4.5 的根因分析能力,标志着垂直领域 AI 知识密度的重大突破。


为运维训练专用模型

Netis AGIOps Labs 正式发布 Netis N1 (Preview)—— 320亿规模架构,综合运用 Continual Pre-training/Mid-training(领域继续预训练/中训练)、SFT(监督微调)与 RL(强化学习)等前沿训练技术深度优化的智能运维大模型。N1 在保持通用智能的同时,获得了专业级的故障诊断推理能力。在 OpenRCA 根因分析基准测试中,Netis N1 以 26.0% 的 Scoring 达到了与 Claude Opus 4.5(26.9%) 相当的表现水平,超越 GPT 5.3 Codex(20.96%)与 DeepSeek V3(13.6%)等主流模型。

值得注意的是,Claude Opus 4.5 作为 Anthropic 的旗舰模型,其参数规模达万亿(Trillion)量级。Netis N1 仅以 32B 参数——不到旗舰模型的三十分之一——实现了同等级别的运维根因分析诊断推理能力。

今天,我们正式将 Netis N1 的模型权重和相关代码开源,发布于 HuggingFace 平台。希望 N1 能为智能运维社区提供一个高质量的基座,推动 AIOps 领域的研究与实践。

OpenRCA:衡量 AI 能否真正理解复杂系统的标尺

如果你管理过分布式系统,一定经历过凌晨被告警叫醒的场景:某个服务异常了,但告警只是冰山一角,问题的根因可能藏在数十个微服务、上百个指标、成千上万条日志之中。

OpenRCA(Open Root Cause Analysis)正是模拟这一真实场景的基准测试,由业界学术机构联合发布。它不考"知不知道",而是考"能不能像一个资深 SRE 一样完成一次完整的故障诊断":

  1. 1 理解故障现象
    —— 解析指标(Metrics)、日志(Logs)、链路追踪(Traces)等多维可观测性数据
  2. 2 规划排查策略
    —— 自主判断应该检查哪些组件、哪些时间段、哪些数据维度
  3. 3 调用工具取证
    —— 通过多轮结构化的工具调用(Tool Call),从系统中检索关键证据
  4. 4 定位根因归因
    —— 综合多源异构证据,精确指出故障组件与根本原因

这不是简单的文本理解或关键词匹配,而是对系统架构认知、因果推理、多步决策能力的综合考验。即使是当前最强的通用模型 Claude Opus 4.6,也仅达到 34.9% 的 Scoring,充分说明了这一任务的复杂性。

Netis N1 以不到旗舰模型三十分之一的参数规模达到 Opus 4.5 级别的表现,验证了一个关键判断:在垂直领域,专业知识的深度比模型参数的规模更重要。

IFEval:决定 AI Agent 能否真正落地的关键能力

在实际的企业场景中,我们对大模型的要求早已超越了"能不能回答问题"——更关键的是"能不能严格按照系统要求执行任务"。IFEval(Instruction Following Evaluation)评估的正是这项能力。举一个 Agent 场景中的典型例子:

一个自动化运维 Agent 需要模型根据告警信息生成一条工具调用指令,要求:使用指定的 function name 和 JSON 参数格式,查询特定时间窗口内指定服务的 P99 延迟指标,且调用参数中必须包含 namespace、service_name、time_range 三个字段。

一个 IFEval 表现差的模型,可能会遗漏必填字段、混淆参数类型、或输出非法的 JSON 结构——对人来说"看起来差不多",但会直接导致 Agent 工作流中断。

IFEval 能力在以下场景中至关重要:

  •  多步 Agent 编排
    每一轮工具调用的输出格式都必须精确匹配下游解析器,任何偏差都会导致链路断裂
  •  跨系统 API 集成
    模型输出必须严格符合目标系统的 API 规范(参数名、字段类型、枚举值),容错空间为零
  •  复合约束执行
    同时满足格式约束(JSON Schema)、内容约束(必填字段)、语义约束(参数值语义正确)等多维度要求

Netis N1 在 IFEval 的 Prompt Accuracy 和 Constraint Accuracy 两项指标上达到 87.0% / 91.2%( 对比Claude Opus 4.5 得分90.5%),确保了在复杂 Agent 编排场景中的可靠性与一致性。

技术路线

Netis N1 基于自研的两阶段智能诊断工作流,以及庞大的领域训练数据集:

  •  阶段一 · 深度规划与工具编排
    模型对故障场景进行深层理解,自主构建多维度的证据检索策略,生成精确的结构化工具调用序列——决定"从何处、以何种方式获取关键线索"
  •  阶段二 · 多维推断与因果归因
    模型对多源异构证据(指标异常、日志模式、链路拓扑)进行交叉验证与因果推理,完成从现象到根因的完整推断链路

训练策略上,我们采用了三阶段递进式方案:首先通过 Continual Pre-training 在运维领域语料上扩展模型的知识边界;其次通过高质量诊断案例的 SFT 建立结构化推理范式;最后引入基于 Process Reward Model(过程奖励模型)的强化学习,对模型诊断推理过程进行质量优化,而非仅对最终结果打分。

值得一提的是,由于故障诊断根因分析需要大量的科学/工程方法,因此在训练中同步强化了科学推理和科学哲学等能力。这一训练策略不仅赋予了 N1 专业的运维诊断能力,还带来了模型基础能力的显著提升——在 GPQA Diamond(研究生级别科学推理)上提升了近 10 个百分点,MMLU-Pro(综合知识推理)和 IFEval(指令遵循)也均有不同幅度的提高。这表明高质量的领域训练数据中蕴含的结构化推理模式,对模型的通用推理能力同样具有正向迁移效应。

结语

Netis N1 的开源发布,代表了天旦在智能运维领域的一个重要里程碑:

  •  以不到旗舰模型三十分之一的参数规模,OpenRCA 和Agent执行约束表现达到 Claude Opus 4.5 水平
  •  通用能力全面持平或提升,未出现领域模型常见的"偏科"/灾难性遗忘现象
  •  再次验证:知识密度与训练策略,而非参数规模,是垂直领域能力的关键

我们正在持续迭代 Netis N 系列模型,目标是在更多运维诊断场景中实现更高的自动化覆盖率与诊断精度。

模型下载地址HuggingFace - Netis N1




















【声明】内容源于网络
0
0
天旦Netis
上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
内容 236
粉丝 0
天旦Netis 上海天旦网络科技发展有限公司是国际领先的业务与网络性能管理领域的软件产品企业,针对关键业务保障、交易分析、大数据采集和挖掘等方面提供专业的产品和解决方案。
总阅读0
粉丝0
内容236