
作者:沙丘社区分析师团队
案例企业
项目背景
当前电信诈骗形势严峻,根据公安部权威发布的信息,2021年全国公安机关共破获电信网络诈骗案件44.1万起,同比上升72%,抓获嫌疑人达到69万名,同比上升162%。国家重点部署打击电信诈骗活动,2021年打击犯罪团伙3.9万个,拦截诈骗短信这17.6亿条,涉及资金损失达3200多亿元,诈骗犯罪高发趋势仍然没有得到有效的遏制。
国家将反诈压力传递到运营商,中国移动作为大型央企,承担应有的社会责任。中国移动过去基于传统的Oracle关系型数据库做反诈模型,但已经达到瓶颈,反而成为反诈系统的业务痛点,具体来看:
第一,关联查询超慢。基于现有海量用户数据进行关联查询时,查询结果反馈很慢,业务查询时间随着用户量的增长成倍增长,尤其是在table-join操作时,计算复杂度按表格数量的乘积关系指数级倍增。
第二,系统时常崩溃。现有模型查询时受限于硬件条件,会出现查询结果无法输出的情况。目前江西移动每日新增用户通话记录等数据上亿条,导致SQL查询达到数据库系统的瓶颈极限。地市实时反诈监控模型输出结果在小时级以上,往往达到数据系统的瓶颈极限,稍微复杂模型的SQL查询就会因数据量过大导致系统出现报错、无法输出结果。
第三,模型语句冗繁。模型语句通过SQL进行,多个关系数据库的join操作导致查询语句变得冗繁,不仅可读性很差,而且一个人写完别人想接手基本不可能,可维护性差,对反诈模型的迭代升级来说是一场灾难。
基于以上痛点,江西移动接触浙江创邻科技有限公司,其Galaxybase图数据库是国内首家拥有全自主知识产权的稳健高性能分布式图“查询+运算”一体化平台。
在与创邻科技的沟通交流中,江西移动发现防范打击电信诈骗、契合图数据库万物互联,直观表达数据之间关联关系的特点,对关系数据的处理效率是关系型数据库的2-3个数量级,同时图数据库还有兼容性强的特点,可以与现有数据库对接。
因此,江西移动成立图数据库反诈试点团队,结合地市反诈模型专家、省公司反诈模型专家、省公司数据库运营专家,共同进行图数据库在反诈应用方面的试点。
初期硬件投入上进行了三节点集群服务器投入,项目于2022年4月份启动,2022年4-10月完成项目实施,2022年11月至今进行了图数据库模型的不断优化和打磨。
解决方案
由传统数据库反诈模型向图数据库反诈模型迁移有三个关键点:
第一,转。将江西移动海量传统关系型数据结构转换为图数据结构,生成“反诈图数据库”,需要将每一通电话转换为不同用户之间连接的边的定义。
第二,模。将现有反诈模型转换成图数据库反诈模型,同时探索基于图数据库条件下更高阶的反诈模型,持续迭代,优化识别成功率,确保有效性。
第三,深挖。通过图数据库“中心性”分析及可视性特定,深挖犯罪分子上线,溯源打击诈骗团伙头目,做到反诈根治。
江西移动对反诈工作流程进行全面梳理,图数据库反诈数据库建立后,首先要将营业数据库生成反诈图数据库,转换过程中江西移动建立可信用户库,通过可信用户模型筛选海量用户,剔除可信用户,减少反诈模型计算工作量;第二步是建立反诈模型,通过反诈模型运行输出涉诈号码,一方面将准确的涉诈线索提供给公安机关,另一方面回溯反诈模型的有效性、成功性。
在业务功能方面,基于图数据库的新一代电信网络诈骗预防劝阻和溯源打击系统具有三大特点:
第一,快。涉诈号码识别、受害人预警劝阻时效性在应用图数据库后,从原有“小时级”提升至“分钟级”。具体来看:
1)基于图数据库的反诈模型输出结果时间从小时级降到秒级,极大的提升预警劝阻有效率,预防发案。
2)强大的分布式原生图存储,使用业界领先的数据分片+动态压缩存储技术,支持属性图的存储。分区数据文件内部的点、边数据格式采用高压缩比的动态压缩技术,极大的节约了资源成本。
3)系统支持可视化配置多样的图指标、图算法,可以一键或配置化进行电信网络诈骗业务需求,可视化操作界面可帮助反诈人员快速识别诈骗电话或设备,为进一步的反诈提供决策依据。
基于Oracle的不同跳数,查询时间指数级上升,如果跳了5张图,查询结果会超过1小时,而基于图数据库的查询仍然维持在秒一级。
第二,准。根据正常用户的图关系特征建立可信用户数据库,使图数据模型误判率降低30%,同时沉淀知识图谱,精准识别诈骗分子。
根据实际治理经验,优化省内用户分层分级机制,通过对用户的多维度大数据关联分析,进行用户安全可信库建设。基于图数据库,构建以电话号码为中心建立信息之间的关联图谱,形成识别电信网络诈骗的图规则,建设用户安全可信库,并应用于预警诈骗电话或行为、追溯诈骗活动的源头等业务需求,高效、准确、全面的识别诈骗分子和团伙。
第三,狠。轻松挖掘诈骗分子之间的深度关联关系,通过溯源打击涉诈团伙头目达到源头根治的目的。
“人以群分、物以类聚”,利益的趋势使得电信网络诈骗层出不穷,但也正是利益使得犯罪团伙的作案信息具有共用的特征,团伙之间交换着使用欺诈设备等信息,而图数据库恰恰能将多源数据完整的全部展示出来,“存在即无所遁形”,通过对网络节点的邻居进行风险分析,电信网络诈骗团伙一览无遗,解决了传统分析方法依赖专家经验,难以复制的问题,且降低了业务人员在各系统之间频繁取数、分析、整合的繁琐过程,大大提高了诈骗识别效率。
基于图数据库的新一代电信网络诈骗预防劝阻和溯源打击系统具有五大业务功能:
第一,多源数据融合关联分析。基于图数据库技术,实现关系型数据库和流式数据的关联融合,分布式架构能够支撑亿级以上数据规模的图谱存储、图谱计算能力。
第二,多场景图模型管理。针对事前、事中、事后各环节,对通信异常通讯行为持续保持密集监控,依托大数据平台的用户信息、通话信令、流量信令、短信信令等开发信令关联网络诈骗风险识别模型、社交网络诈骗风险识别模型、诈骗团伙关键人识别模型等21个模型。
第三,统一的用户可信库。建设用户安全可信库,科学解决正常号码因偶发换机、多卡分离被停机的误判场景,有效缓解客户服务投诉压力。
第四,可视化网络关联应用展示。通过可视化图模型构建、可视化图数据分析、可视化图应用展示,方便日常使用。
第五,多样化应用开发增益。支持多种语言开发接口API,并且可将图展示分析结果嵌入集团其他业务系统之中,如:企信大数据平台、智慧大屏分析平台等。
在模型方面,系统新增基于关联的三大类图模型:
第一大类,事中监测类模型,包括复杂信令关联网络诈骗风险识别模型,诈骗嫌疑号码在出现可疑诈骗行为时,日常频繁拨打外部陌生电话是非常明显的特点,在图模型中,一旦发现有异常,立即进行风险预警;复杂社交网络诈骗风险识别模型是在诈骗号码出现可疑通话行为时,将其纳入到事中监控模型中。
第二大类,可信识别类模型,包括通话对象可信度传播模型,为每一个用户建立通话模型库,将通话模型与可信度传播情况匹配,如果出现异常,则认为通话对象可信度下降,如果属于正常通话,则可信度不断提高;社交圈关系密度判定模型是在用户有稳定的社交圈关系同时社交对象也在可信库当中时,不断对可信度进行识别和提升。
第三大类,事后处置类模型,如果确认涉诈号码或者涉诈人员,会通过涉诈团伙关键人联络识别模型进行回溯,找到涉诈沟通链条;当多个涉诈案件进行串联时,基于传统数据库很难找到上线,而基于图数据库,可以轻松跟踪不同团伙之间的关联关系,通过潜在的沟通方式识别诈骗团伙高层人员是否有关联。
价值与效果

