云原生时代,业务系统架构持续变革,在经历了早期的单体架构、SOA架构后,随着K8S与容器技术的发展,微服务架构已经成为企业新一代业务系统发展的主要方向。云原生也逐渐从以资源为中心的1.0时代,迈进到以应用业务为中心的2.0时代。
云原生架构演进
从以资源为中心到以应用业务为中心
点击查看大图
云原生发展到2.0时代,对于运维团队而言,基础架构在不断演进,管理对象在不断变化,服务能力在持续升级,然而以应用业务为中心,不仅要满足业务高速发展和快速迭代的要求,还要保障业务的稳定运行。于是,如何构建有效的云原生可观测性能力体系就成为了运维团队的最大挑战。
云原生架构下的运维挑战
首先,在云原生架构演进历程中,如何真正实现以应用业务为中心。在传统运维体系,乃至云原生运维体系中,均缺乏应用业务的运维视角。运维团队无从得知业务互访关系、业务响应能力、以及端到端业务实时质量。同时,业务在高速发展,IT基础设施在不断完善,故障发生时往往第一感知源是业务侧。视角的差异致使运维效率及其低下,业务连续性无法保障。由此可见,若想真正实现以应用业务为中心,在云原生可观测性能力体系中构建业务可视化能力,至关重要。
其次,面对错综复杂的云原生网络,如何构建云网全栈可观测性能力。云原生网络有以下三大技术特点。第一是高密度。虚拟化后的资源对象数量呈指数级增长,大企业的私有云可以部署数千甚至上万台宿主机,拥有上万的虚拟机节点已经成为常态。虚拟网络,以及虚拟化的防火墙、负载均衡器、网关等关键组件也随之成倍数增长。第二是多层级。云网络横向增加了诸多虚拟交换机、多路复用器等虚拟化设施,从A终端到B终端的网络会话会历经多次IP转换,纵向则有Overlay和Underlay的多层封装。第三是频变动。资源调度是云原生技术的优势,虚拟化节点按需启用和销毁,同时影响着共享的计算、网络、存储资源。由此可见,倘若无法构建云网全栈可观测性能力,运维团队将面临管不了、看不透、跟不上的窘迫局面。
最后,在构建云原生可观测性能力体系的过程中,如何有效整合各种可观测性工具。云原生可观测性能力体系,需要各种可观测工具组合而成,其中包括传统环境中延用的工具、云平台自带的工具、开源工具、以及三方厂商的工具。我们需要综合考虑构建云原生可观测性能力体系的完整性、时效性、以及成本效益。
天旦构建多视角云原生可观测能力
伴随着云原生架构的演进,天旦也在不断探索、创造、改进、完善云原生可观测性的能力。早在2018年,天旦就已经在GitHub上启动了Netis Packet-Agent开源项目,为云原生环境下的流量采集提供可靠的技术保障。在2020年,天旦的Cloud Probe云流量采集也适配云原生环境。在2021年,天旦正式加入CNCF,成为云原生可观测性与分析领域的代表性厂商。天旦正在帮助越来越多的用户应对云原生带来的挑战,构建云原生可观测性能力体系。
天旦的业务级智能运维管理产品BPC(Business Performance Center)构建了业务可视化能力,能够跨越传统架构与云环境,为运维团队提供了统一的应用业务的运维视角,帮助用户真正实现了以应用业务为中心。
端到端业务追踪可视化,解锁运维黑盒
传统运维体系缺乏应用业务的运维视角,运维团队无从得知业务互访关系、业务响应能力、以及端到端业务实时质量、同时,随着IT基础设施的不断完善,故障发生时往往第一感知源是业务侧。视角的差异致使运维效率及其低下,业务连续性无法保障。
点击查看大图
案例分享
业务投诉,营收受损,天旦BPC实现业务故障第一感知源,业务级智能运维高效保障业务连续性。
业务故障背景:
某银行信用卡业务,在几分钟的时间内接到了大量的用户投诉,有相当数量的业务没有正常完成,导致该银行信用卡业务的营收受损,同时用户满意度下降。行领导组织各个运维团队协同排查故障,力争在最短的时间内使业务恢复正常。
故障解决过程:
自动化故障检测与定位
>基于不同的故障场景,在天旦智能运维管理平台上配置了场景化的告警策略。当故障发生时,天旦智能运维管理系统成为了业务故障第一感知源,在信用卡业务的服务路径图中,实时触发了业务告警,可点击查看告警描述。
>在信用卡业务全路径上都产生了告警天旦内嵌的智能算法,自动化分析出业务全路径故障的根因节点,并用红色方块标记。
一步成因分析
>天旦内嵌的一步成因分析功能,针对业务全路径故障的根因节点进一步进行维度化的根因分析,如交易类型、交易渠道、服务器端IP地址等,可以更高效准确帮助运维团队排除故障,恢复业务。
实现云原生架构下,资源变更、异常问题自动感知
为了构建云网全栈可观测性能力,天旦推出了“云起·智观”产品,基于天旦自主创新的Flow技术标准(Netis Telemetry),帮助用户构建了高性能、全局化的云网分析和保障能力。“云起·智观” 运用三大智能技术解决云网全栈可观测性难题。技术一是智能标签。其建立了云网资源从属关系的多维度映射,可随时获得任意维度切面的统计数据,能够轻松的透视云网资源,从而解决了“高密度”的问题。技术二是智能关联。开创性的独有的网络会话指纹算法,纵向打通了Overlay和Underlay的从属关系,横向跨越3、4、7层网络设施的前后关联,在云网内全栈、全路径追踪一条会话的流转过程,从而解决了“多层级”的问题。技术三则是智能事件。其解决了云网资源监测和告警难题,为不同的场景适配阈值、离群、变化、异常等算法,让系统自动适配资源变更,自动发现异常问题,免去或减少人工维护的成本,从而解决了“频变动”的问题。
点击查看大图
智能标签、智能关联、智能事件,是一套组合拳,不仅解决了云网全栈可观测性难题(高密度、多层级、频变动),还有效提高了云网管理效率,降低了管理难度,赋予云管理团队智能化的管理能力。
最后,让我们通过一个具体示例来呈现一下如何有效整合各种可观测性工具。某个银行用户,已经搭建了自己的私有云,业务也在不断向云上迁移。在构建云原生可观测性能力体系的过程中,该银行用户有以下几项核心诉求。第一,一定要构建业务可视化能力,且能够跨越传统架构与云环境。第二,构建云网全栈可观测性能力,结合使用云平台自带工具、开源工具与三方厂商工具。第三,传统环境中已经使用的Zabbix监控工具,希望在云原生可观测性能力体系中继续延用。最终规划如下图所示:
点击查看大图
值得一提的是,天旦积极拥抱Open Telemetry技术,可以集成SkyWalking、Prometheus等开源工具的数据,形成统一可观测的业务性能管理、应用性能管理和网络性能管理视角,为云原生可观测性能力体系提供良好的兼容性。
综上所述,在以应用业务为中心的云原生2.0时代,天旦的产品方案真正实现了以应用业务为中心的核心诉求,切实解决了云网全栈可观测性的难题,有效整合了各种可观测性工具,帮助用户降本增效。另外,天旦专业的技术咨询服务团队,也将更好的帮助用户构建云原生可观测性能力体系,助力用户高效实现企业的数字化转型。

