天旦开源Netis N1，Opus 4.5级别的运维根因分析能力- 大数跨境

首页

天旦开源Netis N1，Opus 4.5级别的运维根因分析能力

天旦Netis

2026-03-05

导读：天旦发布开源运维大模型 Netis N1，仅 320 亿参数即实现比肩万亿级旗舰模型 Claude Opus 4.5 的根因分析能力，标志着垂直领域 AI 知识密度的重大突破。

为运维训练专用模型

Netis AGIOps Labs 正式发布 Netis N1 (Preview)—— 320亿规模架构，综合运用 Continual Pre-training/Mid-training（领域继续预训练/中训练）、SFT（监督微调）与 RL（强化学习）等前沿训练技术深度优化的智能运维大模型。N1 在保持通用智能的同时，获得了专业级的故障诊断推理能力。在 OpenRCA 根因分析基准测试中，Netis N1 以 26.0% 的 Scoring 达到了与 Claude Opus 4.5（26.9%）相当的表现水平，超越 GPT 5.3 Codex（20.96%）与 DeepSeek V3（13.6%）等主流模型。

值得注意的是，Claude Opus 4.5 作为 Anthropic 的旗舰模型，其参数规模达万亿（Trillion）量级。Netis N1 仅以 32B 参数——不到旗舰模型的三十分之一——实现了同等级别的运维根因分析诊断推理能力。

今天，我们正式将 Netis N1 的模型权重和相关代码开源，发布于 HuggingFace 平台。希望 N1 能为智能运维社区提供一个高质量的基座，推动 AIOps 领域的研究与实践。

OpenRCA：衡量 AI 能否真正理解复杂系统的标尺

如果你管理过分布式系统，一定经历过凌晨被告警叫醒的场景：某个服务异常了，但告警只是冰山一角，问题的根因可能藏在数十个微服务、上百个指标、成千上万条日志之中。

OpenRCA（Open Root Cause Analysis）正是模拟这一真实场景的基准测试，由业界学术机构联合发布。它不考"知不知道"，而是考"能不能像一个资深 SRE 一样完成一次完整的故障诊断"：

1 理解故障现象
—— 解析指标（Metrics）、日志（Logs）、链路追踪（Traces）等多维可观测性数据
2 规划排查策略
—— 自主判断应该检查哪些组件、哪些时间段、哪些数据维度
3 调用工具取证
—— 通过多轮结构化的工具调用（Tool Call），从系统中检索关键证据
4 定位根因归因
—— 综合多源异构证据，精确指出故障组件与根本原因

这不是简单的文本理解或关键词匹配，而是对系统架构认知、因果推理、多步决策能力的综合考验。即使是当前最强的通用模型 Claude Opus 4.6，也仅达到 34.9% 的 Scoring，充分说明了这一任务的复杂性。

Netis N1 以不到旗舰模型三十分之一的参数规模达到 Opus 4.5 级别的表现，验证了一个关键判断：在垂直领域，专业知识的深度比模型参数的规模更重要。

IFEval：决定 AI Agent 能否真正落地的关键能力

在实际的企业场景中，我们对大模型的要求早已超越了"能不能回答问题"——更关键的是"能不能严格按照系统要求执行任务"。IFEval（Instruction Following Evaluation）评估的正是这项能力。举一个 Agent 场景中的典型例子：

一个自动化运维 Agent 需要模型根据告警信息生成一条工具调用指令，要求：使用指定的 function name 和 JSON 参数格式，查询特定时间窗口内指定服务的 P99 延迟指标，且调用参数中必须包含 namespace、service_name、time_range 三个字段。

一个 IFEval 表现差的模型，可能会遗漏必填字段、混淆参数类型、或输出非法的 JSON 结构——对人来说"看起来差不多"，但会直接导致 Agent 工作流中断。

IFEval 能力在以下场景中至关重要：

多步 Agent 编排
每一轮工具调用的输出格式都必须精确匹配下游解析器，任何偏差都会导致链路断裂
跨系统 API 集成
模型输出必须严格符合目标系统的 API 规范（参数名、字段类型、枚举值），容错空间为零
复合约束执行
同时满足格式约束（JSON Schema）、内容约束（必填字段）、语义约束（参数值语义正确）等多维度要求

Netis N1 在 IFEval 的 Prompt Accuracy 和 Constraint Accuracy 两项指标上达到 87.0% / 91.2%( 对比Claude Opus 4.5 得分90.5%），确保了在复杂 Agent 编排场景中的可靠性与一致性。

技术路线

Netis N1 基于自研的两阶段智能诊断工作流，以及庞大的领域训练数据集：

阶段一 · 深度规划与工具编排
模型对故障场景进行深层理解，自主构建多维度的证据检索策略，生成精确的结构化工具调用序列——决定"从何处、以何种方式获取关键线索"
阶段二 · 多维推断与因果归因
模型对多源异构证据（指标异常、日志模式、链路拓扑）进行交叉验证与因果推理，完成从现象到根因的完整推断链路

训练策略上，我们采用了三阶段递进式方案：首先通过 Continual Pre-training 在运维领域语料上扩展模型的知识边界；其次通过高质量诊断案例的 SFT 建立结构化推理范式；最后引入基于 Process Reward Model（过程奖励模型）的强化学习，对模型诊断推理过程进行质量优化，而非仅对最终结果打分。

值得一提的是，由于故障诊断根因分析需要大量的科学/工程方法，因此在训练中同步强化了科学推理和科学哲学等能力。这一训练策略不仅赋予了 N1 专业的运维诊断能力，还带来了模型基础能力的显著提升——在 GPQA Diamond（研究生级别科学推理）上提升了近 10 个百分点，MMLU-Pro（综合知识推理）和 IFEval（指令遵循）也均有不同幅度的提高。这表明高质量的领域训练数据中蕴含的结构化推理模式，对模型的通用推理能力同样具有正向迁移效应。