
随着云服务和移动支付的兴起,网络安全问题也日益凸显,尤其是网络攻击呈现的专业化趋势,更让网络攻击造成的威胁持续蔓延。面对新的安全形势,传统的防御手段已无法应对各种复杂的网络环境,建设主动防御安全体系成了大趋势,这也让态势感知技术成了安全领域的焦点。
那么在云上安全备受瞩目的大环境下,云态势感知技术又如何为安全保驾护航呢?在未来又有着怎样的发展趋势呢?为此,京东云产品研发部产品经理梁洋洋,专门为大家解读了云态势感知的进化论。
云上安全防卫战
基于云计算的态势感知技术分析及应用对策
— 京东云 梁洋洋—
虽然态势感知是近几年新有的安全名词,但对于有安全背景的人来说,态势感知并不陌生,它是跟SOC(安全操作中心)对标的产品。
在2010年之前,安全威胁不是特别多,主要还是集中在网络层面,所以当时的SOC产品还是停留在NOC(网络操作中心)基础架构的阶段。
当时比较出名的产品是Cisco-MARS产品,主要是把所有Cisco的交换机、路由器、防火墙、IDS、IPS数据都收集上来,然后放到MARS里面来关联分析,形成攻击拓扑图。这就是态势感知最初始化的雏形,也就是把网络层面的安全数据收集到NOC的产品当中。在安全技术还未成熟的2010年,这个技术足以让人眼前一亮。
由于安全威胁场景不断变化,普通的NOC产品无法分析出APT攻击,加上安全设备和安全事件的突增,传统的NOC已无法满足需求,所以在2010年-2015年逐步兴起SIEM/SOC平台。SIEM是安全信息和日志管理平台。可以把主机上的安全日志包括登录日志都搜集上来存储到SIEM里,对分析攻击场景有很大的帮助。
不过,国内的一些安全厂商对SOC输出没有标准,导致搜集的日志格式不统一,后面的关联分析达不到用户需求,最终80%的SOC的项目都以失败告终。
那么新的态势感知相比SOC平台有哪些不同呢?

首先是检测引擎,安全探针要提升自身的检测能力和准确性。主机层面通过在终端安装EDR产品或者下一代杀毒软件,进行搜集比较准确和简单关联的日志,利于更好地检测安全威胁。网络层面通过NTA(全量日志分析产品)来匹配危机情报和沙箱等新技术进行分析。web层面也会有基于语义分析的WAF日志,这样收集对关联分析起到很大作用,达到检测层面的提升。
其次是大数据架构方面的提升。由于现有的SOC平台用传统的MySQL和Oracle来进行关联分析,这种关联分析的技术扩展性相对较差。所以随着大数据技术的发展,搜集的时候用Flume,存储的时候用ES,在关联分析的时候用Spark,达到大数据云架构的改变。
最后是在云上更有优势。可以高度规划实时的采集日志,并且通过Kafka这种方式发送到态势感知的安全操作中心,这样在以后的关联分析时就占有了主动权。基于这些因素,才让态势感知产品出现。
随着技术的发展,态势感知会继续往下发展,下一个极端是基于安全运营的SOC,比上一代的威胁感知SOC多了基础日志收集丰富程度。通过智能分析架构来做处理,例如机器学习、图分析等技术。
态势感知首先通过网络层面进行决策,通过搜集了大约十款产品来进行调研分析,发现网络层面的能力主要有核心能力、扩展能力和增强安全运营能力。
态势感知的核心能力包括持续抓包取证、流量/威胁可视化、网络入侵检测系统规则匹配、WebIDS规则匹配。扩展能力主要体现在威胁情报、动态行为检测和机器学习自动检测引擎,机器学习自动检测引擎里面又分为分类分析、聚类分类和KDE时序分析。

增强安全运营能力就是对安全实体进行分析,通过分析探针来查看攻击的用户,比如SOAR、Kill-Chain、UEBR。而态势感知在主机层面上的能力,除了有核心能力、扩展能力和增强安全运营能力外,还具有未知威胁检测能力。

针对于云上,态势感知的核心能力主要是做云工作的负载肩负,包括配置/漏洞管理、网络隔离防火墙流量可视化、系统完整性测量认证和监控、应用程序控制、补充性内存和漏洞攻击防护。
扩展能力中的行为监控HIDS/EDR能力是云端主机层面防护软件中最重要的,其它还包括静态加密KMS、HIPS漏洞屏蔽、欺骗能力和反恶意软件。增强安全运营能力包括工作负载外部的漏洞和配置评估、IAM/MFA、日志管理和监控。未知威胁检测能力需终端集成威胁情报、AI/沙箱云查杀。

京东云的态势感知产品可帮助用户进行大数据安全分析。最底层是基础数据层,进行NetFlow搜集、网络流量、DNS、HTTP/S日志收集。第二层是威胁感知层,通过安全的探针检测,包括DDoS/高防、全量日志分析、NIDS、威胁情报匹配、机器学习异常检测、沙箱、主机安全/EDR和漏洞扫描/蜜罐里的数据都搜集上来。
第三层是关联分析层,包括实时针对性攻击分析、APT攻击分析、自动化编排研判、精准画像UEBA和图分析。针对性攻击是在一分钟之内发现了攻击的关联分析,而APT攻击会把攻击时间相对拉长,拉长成一小时或者一天的时间,给黑客足够攻击时间,便于检测黑客攻击的情况。
自动化编排研判是目前比较好的解决方案,由于黑客的攻击手段千奇百怪,只能更细化调度的引擎,细化到每个功能点像积木一样组合在一起,形成关联链。通过关联链更好的去分析、丰富查询关联分析的过程。
而UEBA主要是针对云上的数据,以数据层面来进行切入,比如说OSS、RDS或用户自建的数据库对它进行监控,包括用户对数据库的访问、对象存储的访问进行分析。底层的(OpenAPI)的访问也都会进行关联分析或机器学习分析。
图分析是在主机层面检测信息、网络信息、用户信息可以用图的方式展现给用户,可以挖掘出攻击的路径,是一种很好的分析手段。
第四层是威胁展示层,主要是通过告警事件、威胁事件、热点事件、安全大坪、自动化攻击溯源给用户展示,降低用户调查取证的时间,提升效率。

通过云上日志可以分析出更有价值的安全威胁以及安全问题。
底层基础网络信息是五元组、DNS、HTTP、LB信息,在攻击路径的时候可能会通过NAT的转换,转换之后便不可查找主机ID。同时,NAT数据可用于对资产进行再补齐。通过VPC Log获取VPC里数据流传输,还可以分析出横向攻击。
在主机基本信息中,通过上传的进程、端口、账号、软件、文件、系统日志,关联出更有价值的信息。比如说异常网络连接、肉鸡行为、可移操作、敏感文件篡改都可以进行分析。安全产品例如Anti-DDos、WAF、扫描器、HIDS、NIDS、数据库审计、堡垒机都可以上传。有利于分析DDoS攻击、Web漏洞、SQL注入、病毒木马等。
云产品组件的云产品基线,配置失败可能引起的漏洞;还可以对OSS审计日志、RDS审计日志、OpenAPI日志的风险访问行为进行分析。还有人员信息中的VPN、登录日志和权限日志。这些都可以帮助态势感知更好的进行分析。
攻击链分析分简单规则关联分析和复杂规则关联分析。
云态势感知技术的计算层采用Spark,这样数据分析产生的警告会随着时间流入到大数据处理引擎(Spark)里,通过Spark里的滑动窗口对所有输入的数据流来分析。遭受到暴力破解并成功,第一个从网络的IDS会产生警告,接下来会有EDR告警,同时安装系统后门。整个操作是连贯的,这便是简单规则关联分析。

那复杂规则关联分析是什么样的呢?首先黑客会使用扫描集群,扫描RDS端口进行暴力破解。如果未授权访问上控制云服务器的基础服务器,便会将公钥写入基础服务器,之后就能自动化操作,比如说装一些黑客工具、DDoS工具或挖矿、勒索工具。

恶意服务器长时间扫描会被威胁情报检测到服务器的IP地址,然后态势感知在本地检测的时候会对这些IP进行扫描。在扫描暴力破解的时候,利用NIDS ET规则来进行检测,接下来会用Redis弱口令/开启认证,口令是弱口令或者没有开启认证,会产生告警事件。写入C&C服务器公钥的时候会使用sshkey目录,在动目录的时候会产生一条非法文件篡改的告警事件。
再往后会有反弹shell,可以对可疑连接或者是失陷主机主机进行检测。在挖矿程序的时候我们会通过云沙箱来进行检测,DDoS也可以通过肉鸡行为进行检测。这样对用户每一步操作都形成了告警事件,然后把这些告警事件关联在一起。这就是比较复杂的规则和时序分析的过程。
异常检测是怎么做的呢?这里以DGA检测为例。首先要把外部训练数据导进来,有黑数据和白数据,然后把DNS的数据导进来进行特征提取,再往下是用Spark训练模型,训练之后会把模型放在集群里面进行检测,这样就形成了DGA运行检测的流程。

那么模型做好之后怎么用呢?
首先检测通过两条路,第一条路是NIDS的DNS流数据,通过程序补齐账号之后发到Spark里面进行特征提取匹配,然后进行预测;第二条路是云主机上,比如说自己设定了公网DNS解析的话,它发送的数据也是通过DNS解析来进行补齐资产来进行实时检测。
通过这两个数据会把DGA预测做一下,之后把数据放在实时管理分析引擎中进行分析。分析之后才会把它放到ES topic里面,给用户看到最终的分析结果,这样就实现了DGA域名检测流程。
图分析技术就是把所有的数据导到图分析,通过图的方式关联出来,再通过图的搜索算法检测出来。例如下面这个真实的入侵案例;

首先通过挖矿进程发现其中有一台服务器(Test-001)已经高负载,查看高负载CPU所定义的进程的时候,发现它是一个异常进程,所以进行告警。告警之后会进入到观察列表里,通过某个点找出挖矿进程的程序是怎么运行起来的,又是怎么进到服务器里的。
通过时间推移的方式,通过上下文关联来进行检测,关联之后发现了一条命令行审计规则,也就是通过其中一个可疑进程来下载了挖矿的脚本并且运行了。挖矿脚本的副进程是用户自己创建的一个Hadoop的进程,也就是Yarn进程。Yarn进程其实是Hadoop未授权访问的RCE的漏洞。同时通过扫描器来进行扫描检测这台主机,发现这台主机确实存在Hadoop RCE的漏洞,这便是自动化攻击溯源,里面的核心技术就是图分析的技术。
目前京东云态势感知产品的应用场景一个是公有云市场,另一个是专有云市场。
专有云市场所对应的产品有态势感知JDStack版本,是内嵌到专有云的云租户来进行检测,它的用户是对于里面每一个租户安全的检测。还有一个是针对于云平台,或者针对与IDC传统的安全管理场景提出产品叫态势感知专有云的版本。
点击“阅读原文”了解京东云态势感知产品,马上开启免费试用之旅后台回复【PPT0917】获取课程PPT
课程问答
没有大量数据投喂,无法发挥态势感知的优势吗?
当时我们在介绍态势感知进化论的时候,为什么SOC平台没有发挥原来所拥有的能力,其实主要还是因为数据采集过程中会出现各种的异常情况。态势感知在高度集中的规划中可以更好的去做下面的关联分析,所以得有大量的数据来进行投喂。
态势感知在线教育行业中有哪些应用场景?
在线行业在我这个年龄很多用户是为人父母,我们的孩子是6岁-8岁,我们能接触到这个行业的比如说K12学习在线教育场景。这种场景比如说企业在公有云上,你上云之后才能更好的帮助你。作为家长,作为用户,我认为在线教育最核心的指标是网速必须得快,因为我们连接的是国外的老师,比如说英文老师在美国,我们在中国,我们跟他连接的时候网速一定不能出问题,一旦出问题的话使用体验就非常差。
如果在线教育企业在公有云上遭受到DDoS攻击的时候就会出现问题,网速会降低或者被打坏,这样会通过态势感知立马会收集DDoS数据,通过分析数据找到阻断或更换业务数据ID这种有效地应急响应手段,这种方式还是可以应用的。
我们在做的过程中,发现前期的积累都是靠安全人员的经验来积累的。而且我们会发现另外一个问题,如果非常有经验的安全人员离开公司或者离开京东平台怎么积累呢?其实我们在做自动化安全运营编排的时候就把这个问题想好了,会把安全增加的所有经验输入到安全编排的过程,把它数据化、电子化,然后我们再检测它的效果。把这个东西沉淀起来形成一个知识库,这就可以更好的帮助用户来解决问题。
第二是误报的问题,误报的问题也是通过(sona)来做的,比如说发现一个挖矿检测,我们就要经过(sona)进行检测,丰富上下文,比如说挖矿检测在主机上到底有没有,如果没有的话我认为它就是误报,就把它排除掉。通过(sona)我们会处理掉绝大部分的误报,可以帮助你更好的积累安全知识。
·END·



