网络就像空气,没有问题的时候,大家都感觉不到它的存在。而一旦出了问题,则足以让许多人歇斯底里。当系统变慢或出现故障,几乎所有人最先想到的都是 “网络是不是有问题?”反馈给网络运维的信息也不外乎“网络慢”“连不上”“出错了”这三连。
而如果网络运维查不清问题,解决不了问题,又没有证据,那么往往会面临“背锅”的窘境。
在制造领域,随着工业4.0概念的提出,“传统制造”已逐步迈向“智造”,智能工厂、智能生产和智能物流等备受推崇。在此过程中,网络也发挥着越来越重要的作用。智能制造的首要条件就是要实现设备间的万物互联,通过联网实现协同作业,通过联网打通工厂间的信息孤岛。与此同时,一旦网络出现故障,生产系统也将受到严重影响,其严重程度不亚于传统工厂发生停电。
案例:
某大型制造企业网络性能监控部署方案
在智能化工厂中,自动化生产线的运行高度依赖于网络。一旦网络出现问题,可能会导致生产线停滞,带来巨大的经济损失,这也对网络运行状态的监控管理提出了更高要求。下面,我们就结合某大型制造企业的用户案例,聊一聊基于网络数据的性能监控如何在制造业落地应用。
网络运维的痛点
该企业是一家跨多领域的电子设计代工公司,在全球拥有多个制造中心,国内分公司旗下管理着多家工厂的生产网。过去由于缺乏可靠的网络监控手段,导致在网络出现问题影响业务系统时,难以快速找到问题位置与根本原因,成为该企业网络运维人员的一大困扰。
天旦怎么做?
一期部署:采用网络流量分析流派,即刻落地端到端的网络性能监控
准确的性能监控,要从数据的源头抓起。不同数据采集方式获得的数据类型和颗粒度是不同的,不同的数据源能够分析出的指标类型也是不同。根据数据采集方式的不同,产生了不同的性能监控流派,日志、Agent和网络流量分析是其中较有代表性的三大核心流派。
经综合对比,天旦基于网络流量分析的NPM产品,由于部署周期短、对业务系统零风险、全面向前兼容等优势获得了用户的认可。
主从分布式部署,集中管理、易于扩展。方案采用分布式的部署方式,将若干台探针下放到各厂生产主机房,流量汇总到一厂NPM,便于集中管理。同时,NPM基于软件形式交付、更具灵活性,易于扩展。
二期扩容:全面覆盖关键业务节点的网络流量可视化管理
随着业务的增长、网络设备的增加,一期项目以覆盖生产系统为主的监控范围逐渐不能满足业务发展的需求:一方面,现有监控范围有限,由于之前未考虑到东西向流量,导致该部分流量无法被实时监控;另一方面,监控不贴近业务,之前的规划中服务路径图没有得到很好地利用。因此,该企业进行了扩容。
扩容规划包括:
1、增加服务路径节点,将OA系统纳入网络性能监控的范围,覆盖mail、ERP等常用系统,以便在网络发生延时、卡顿时,高效进行排查。
2、实现一厂所有机柜的(办公+产线)流量可视化,在原有基础上增加Exprobe流量模块实现流量的规划处理,将一厂中各个机柜的汇聚交换机直接镜像到Exprobe模块中,通过Exprobe实现流量的去重、过滤,继而送到smartprobe中,最后由NPM统一展现。
用户收益
从一期到二期项目,逐步实现了对生产线、办公网络等关键系统的流量可视化监控;
通过NPM产品实现自动化故障告警、一键故障根因分析,运维效率得到提升;
通过有效的故障告警基线设置,在故障形成并造成产线停工前就发出告警,有效预防了停工造成的经济损失;
全量网络流量数据采集和可视化报表分析,为性能优化和扩容提供依据。
天旦NPM:
基于网络数据让网络运维管理更简单
作为基于网络流量分析的网络与业务性能监控产品提供者,天旦曾服务于银行、证券、保险、电力、政府等各行业的客户,在为不同企业带去解决方案的过程中,我们发现网络运维管理普遍存在这些挑战:
挑战1 网络架构梳理困难
大部分企业描绘网络基础设施的关系依然还在使用网络拓扑图。但数字化转型驱动之下的数字化企业,基础设施与IT系统经常发生变化,需要自动化的梳理方式,才能厘清错综复杂的业务逻辑访问关系;
挑战2 专业壁垒,管理视角孤立
业务出现问题,究竟是网络故障还是应用故障?管理职能精细划分下的术业专攻,导致实际工作中各有各的管理分析视角,难以统一观点,诸多分歧造成分析有效性下降。
挑战3 手动分析、专家依赖的网络管理方式,终将被淘汰
智能化的时代,自动化的工厂,手动分析与排障的网络管理方式已经无法匹配高效工厂的新时代要求。
针对以上挑战,天旦通过实时网络流量数据分析,从发现-展示-运维三个层面,提供自动化的功能支持。精准故障告警、一键自动化故障诊断、自动化服务路径图梳理,为承担着产线生命力的运维工程师带来高效的网络监控手段。
发现层:自动发现服务路径并梳理,将数以月计的业务逻辑梳理缩短到周
从发现的角度快速梳理并构建服务路径,通过更加贴合业务流程和网络架构的服务路径视图展现,便于发现各个应用之间的依赖关系,有助于优化业务逻辑,提升整体运维效率。
展示层:统一网络与业务视角,解决视角孤立
通过服务路径梳理建立网络与业务的一一对应关系,实现网络与业务视角的统一。当故障出现,迅速定位问题环节,通过网络层面指标,判断问题是否出在网络层面,提高部门间的沟通效率,助力高效排障。
运维层:自动告警与故障定位,解决定位迟滞、排障困难
除了报表与告警等基础功能,NPM最大的亮点在于精准的自动故障诊断和快速定位。基于天旦独有的专利告警模拟功能与大数据分析技术,通过海量历史数据的模拟推演,可以帮助网络管理人员快速定义精准的告警阈值,大幅提升运维效率。
同时,NPM还支持外部导入数据进行故障的回溯分析,为监控未覆盖环节撑起保护伞。将需要分析的数据包导入NPM,即可提供自动化的故障诊断报告。
如果您想了解更多NPM实际应用案例,可以点击下方按钮进入下载页面。

