2023年3月23日,天旦应邀出席了在南非开普敦举办的华为数字金融峰会,与来自非洲银行业的代表和专业人士共同探讨数字化转型的最新趋势和挑战。华为在会上提出了全新的“不间断”的银行业数字化理念,并呼吁ICT行业和银行业携手应对在线服务不稳定、病毒入侵等挑战,推动非洲银行业向“服务不间断”、“业务不间断”和“创新不间断”的方向转型。
天旦海外业务部总裁王丹(Dan)女士在会上发表了《金融业务级智能运维解决方案》主题演讲,分享了天旦在AIOps领域的技术洞见与落地经验,如何通过“1分钟检测、3分钟诊断、5分钟恢复”的智能运维能力,为不间断的业务连续性保驾护航。天旦期望通过与华为的紧密合作,共同推进非洲银行业数字化转型,让“服务不间断”、“业务不间断”和“创新不间断”的理念与实践带给更多的非洲客户。
文字实录
早上好,女士们先生们!
我是Dan ,来自天旦。
我第一次来非洲是在两年前。我去过尼日利亚 、安哥拉 、肯尼亚,拜访那里的银行客户。他们热情地拥抱数字化转型,也拥有高比例的网上支付。在拜访中,大多数的CIO都会问我,我们要如何帮助他们在故障诊断中,加强各个部门间的协调?类似地的问题还有,当分支机构在复杂的系统环境中出现问题,我们要如何定位根因?但最终我们讨论的都是同一个话题:我们如何帮助他们改善业务连续性。就像我们在这里的口号“不间断的银行业务”。
首先,让我来简单介绍一下天旦。天旦是一家聚焦关注业务和网络性能分析的公司。我们的海外总部位于新加坡,公司总部位于中国上海。我们在这个行业已经专注了二十年,所以我今天介绍的解决方案非常独特。
我们采集的所有数据都来自于网络。通过分析它们,我们就可以告诉你,业务性能怎么样?如果有问题出现,我可以告诉你有多少交易已经受到了影响?
Gartner很早就认可我们。2017年天旦入选为全球性能分析领域 Cool Vendor;2018-2022年我们都是AIOps领域的Sample Vendor。我今天向大家介绍的解决方案,已被广泛应用到了尤其是金融机构客户。在全球已经有超过200多家银行客户选择这个解决方案,帮助他们分析商业价值。
数字化转型让IT环境变得越来越复杂。我可以分享一个故事。
中国最大的商业银行之一,过去他们使用主机作为核心系统。现在,他们将主机迁移到开放平台。他们采用了OpenShift容器和微服务。以往,他们的主机管理员只需要管理一台主机;但现在,他需要管理10000多个微服务,涉及到整个基础设施。对他们来说,这是一个巨大的挑战。
我们都知道业务需要敏捷性,但监管机构要求稳定性,同时业务需要成果。IT将大量的投资投入到了基础设施,同时也投资了大量的天才开发人员去做开发。为什么?因为当他们开发出新的现代应用程序时,他们获得了很显而易见的成果。
当前的业务应用数量已经是从前的10倍100倍甚至更多,现在的应用交付速度也越来越快。这让IT运维工作比以前多了很多。我可以与各位分享一个数字,这是另一家中国最大的商业银行。十年前,他们有200个运维工程师,200名开发人员。现在,他们拥有超过1万名开发者,然而运维工程师仍然只有300名。所以你看,人力方面的增长率有很大的不同。
如你所知,当前IT的各个团队仍然说的是不同的语言。这很有趣 ,比如:网络团队,他们会说“我的三层架构运行地很好”;在应用团队,他们也会说同样的话“我的三层架构也运行地很好”。但当他们说到“三层架构”的时候,网络团队正在讨论的是:接入层、汇聚层、核心层;而应用团队正在讨论的是:Web、应用层、数据库。看,他们的语言有很大的不同。然而,我们可以解决这些差距。
就像Gartner说的那样,没有AIOps的IT运维是没有未来的。这是由于数据量的快速增长以及变化的速度,已经等不及人类来响应。IT改变了很多东西,但变化是唯一不变的东西。TCPIP是在1983年发明的,至今已经有四十年的时间了。TCPIP的传输并没有改变很多,但网络的负载和协议已经发生了很大的变化。所以我们在想,如果我们可以理解应用程序之间的所有协议,是否我们能解决所有的问题。所以,我们投入了大量的金钱和时间,与客户一起实践,最终我们发现,答案是肯定的。
现在,我们已经把方案产品化,并且开箱即用。目前,我们的产品可以支持超过400多种的公有协议、超过2000种私有协议。
如你所见,这是一个典型的贷款业务流程。请跟着我来看,当我们的顾客发起一个请求,比如他从苹果的门户网站发起请求。首先,他需要登陆活动页面;然后,获取他的信用;然后,输入他的个人信息;最后一步是识别验证。我们可以清楚地看到整个交易旅程。这是一笔交易从业务处理流的角度来看。
但如果从IT的角度来看,数据流会经过很多关键组件 ,比如:防火墙、负载均衡、应用、中间件、主机,并经过数据库处理。所以,我们的解决方案能够满足所有的要求。
这是银行典型的顶层逻辑。可以看到这里有很多分支机构和第三方支付机构,比如VISA、 Mastercard,或是中央银行等等。这是一个数据中心整体的全览,这是云环境,这是服务器......所以,当我们采集所有来自网络的流量数据时,我们只需要span就可以了。Span很简单,只需要复制或者说镜像流量到特定的端口。所以,这个解决方案对很多部门都有好处。现在,我们可以进行跨部门合作了。
首先是NPM,我们的解决方案可以让网络团队受益。我们可以鉴别问题来自于第三方机构还是数据中心内部?是分支机构的问题还是数据中心的问题?究竟是overlay还是underlay的问题?准确地判断出到底是谁出了问题。这是NPM对于网络团队的价值。同时,这是一个快速故障诊断非常有用的工具。
运用我们的技术,我们也可以为数据库团队带来好处。如果你想把Oracle迁移到MariaDB,或者华为的GaussDB,性能如何呢?如何分析数据库的性能?也许你会说可以打开tracing,但打开tracing就会消耗资源。这就像是一个悖论,我想分析数据库的性能,但当我打开tracing,它肯定会消耗数据库的资源,尤其是主机上的数据库资源。MIPS是非常昂贵的。所以,我们需要找到另一种方法。这就是我们的解决方案对DBA和应用团队的价值。
通常我们会用一些基本的分析工具,比如把代理插入服务器。但是天旦的做法完全不同,我们使用网络数据包。这绝对是安全的,因为我们不消耗任何资源。它是旁路的,是被动的。
所以,业务线LOB也可以利用它。他们想给客户最好的用户体验,但我们可以让他们首先能够度量最佳的用户体验。所以,用户体验可以分为两个重要的指标:响应时间和响应率。我们能提供给你的关键能力是可以衡量用户体验。当客户发起一个请求,经过防火墙、负载均衡、网关等重要的组件,在网络的每一个环节里时间都在被消耗。所以,业务团队也可以从中获得洞察。
接下来可以看到,在利用天旦方案前和方案后是完全不同的。这是一个排障的典型处理过程,需要很长的时间去做排障。通常你会先ping一下网络是否通畅,但通过天旦的产品你能够实时获得告警;能够找出导致问题的根本原因;然后,你就可以做服务恢复了;最后一步就是阅读报告。当我与一些银行运维一起工作的时候,通常他们需要三到四周的时间写一份报告,这绝对是非常耗费时间的。
接下来是一个成功故事。
这是东南亚最大的银行,也是世界上最好的数字银行之一。他们把我们的解决方案部署在了整个数据中心,以能够分析不同的层级,比如分析网络层。然后,他们把结果告诉基础设施团队和应用团队。与此同时,我们可以提供高性能的设备。我们为客户部署了100Gbps的探针来分析整个基础设施。而现在,他们已经有了超过2280Gbps的更强大的分析能力。
有一次,他们想分析大约100个特定的数据包。我可以给大家一个数字:这些数据包中包含的是每10分钟170亿个会话。这是一个巨大的性能挑战。但我们解决了,稳扎稳打。
利用天旦的技术,我们可以搜索数据包,通过IP和起始时间进行全局搜索。我们通过数据包压缩技术可以获得更长的数据存储时间,有效降低成本。
我要介绍的另一家银行是北京银行,中国最大的城市商业银行,可能与这里的一些银行规模相似。他们有很多的数据中心和供应商。我们与华为紧密合作,为他们提供了业务级的AIOps的关键能力。
现在想象一下你是一位CIO,你能够全局地看到所有银行业务,比如手机银行、网上银行、私人银行、第三方支付等等。当有任意一个环节出现问题的时候,我们可以告诉你是哪一个应用遇到了问题。我们可以直接找到根因,给你一个闪烁的红色告警。最终,它会告诉你哪里出了问题。
我们将简单留给各位,就像你们将简单留给你们的顾客,把所有的复杂性都留给我们自己。我们期待为您带来助力,紧密合作,为你们的客户带来最好的体验,持续商业影响力。
感谢在座的各位!

