大数跨境

中国保险IT应用高峰论坛报告实录——大数据平台对保险业智能化变革的作用价值和案例

中国保险IT应用高峰论坛报告实录——大数据平台对保险业智能化变革的作用价值和案例 科技应用高峰论坛
2018-01-18
1
导读:金融行业(银行、保险、证券)正在经历一个互联网和手机移动应用的深入发展阶段,我们叫数字化。无论客户在柜台还是网上办理业务的时候,金融企业都能准确洞察客户业务进程,并能提供全方位的客户服务。

大家好,下面由我来介绍HPE大数据平台。这个主题叫HPE大数据平台之保险业极速分析实现。

 

怎么诠释这个主题呢?实际上HPE大数据平台是要交付给客户一个不受限制的分析能力。后续我们展开说明海量数据分析有哪些限制因素,以及HPE大数据平台如何从产品设计上克服这些限制。

 

今天的议题包括三个方面的内容:

第一节 金融行业发展趋势及大数据挑战

阐述金融行业整体发展趋势,上述发展趋势对海量数据管理能力的技术要求是什么,有哪些现存挑战和困难需要解决;

第二节 HPE大数据平台产品方案

论述HPE大数据平台如何从产品角度解决上述问题;

第三节 HPE大数据平台典型案例

用具体客户案例来说明如何基于HPE大数据平台解决海量数据管理难题。


第一节 金融行业发展趋势及大数据挑战

金融行业发展趋势

数字化:现在来看金融行业(银行、保险、证券)正在经历一个互联网和手机移动应用的深入发展阶段,我们叫数字化。

渠道:无论客户在柜台还是网上办理业务的时候,金融企业都能准确洞察客户业务进程,并能提供全方位的客户服务(否则你打电话给call center寻求帮助,对方根本搞不清楚状况)。

个性化:基于用户行为画像的千人千面产品设计,每个人保费都不一样,这是什么样的未来。

数据分析驱动:基于数据分析的业务驱动和产品创新,是不可逆转的金融业务发展趋势。


数据挑战

基于金融行业整体发展趋势带来的业务模式变化,我们看到海量数据无论在管理和应用方面都面临着巨大挑战。

快速膨胀的数据:在金融业务没有深度互联网化和移动化的情况下,单个客户通常一年也没有几笔交易。但是现在不同了,互联网和移动支付等深度普及和发展使金融企业的交易量有几个数量级的增长。

基于用户画像业务驱动原来很少有企业关注用户行为,现在不一样了,金融企业会实时关注用户行为的动态变化。用户行为涉及的数据类型很多,行为分析手段也远远超出了传统数据库的能力范围,用户行为分析和画像正在面临前所未有的挑战。

海量数据规模和高并发条件下的数据处理性能压力

正如我们所了解的,保险行业的数据模型可以用有限的主题模型来描述。例如:当事人(投保人、受益人、保险代理商),当事人资产,组织结构,地址、产品(对应险种),事件(承保、缴费、理赔) 等。基于保险业数据模型构建全企业统一分析视图,是实现基于数据分析驱动业务的前提和基础。 

在数百个查询并发,分析主题中的事实表达到数个TB甚至数十TB,客户维成员规模甚至达到数亿的情况下,基于统一数据分析视图交付秒级的响应能力非常困难。

我们看到目前仍然有超过90%的企业,基于小型机(例如P750或780)、中高端存储、传统OLTP数据库(Oracle或DB2)环境构建数据分析环境。这种做法即便是在1-2TB数据量下,仍面临极大性能挑战,为此还需要大量的人工调优工作量。系统软硬件采购成本也非常高昂,通常超过500万人民币。 

我在这里想要告诉大家的是:目前包括HPE Vertica在内的分布式MPP数据库已经非常成熟了,用户随便去买几台PC服务器(价格在2-6万之间),然后将Vertica等MPP数据库装上去,就可以轻松获得高出一到两个数量级的数据分析性能。采购成本甚至不到小型机+中高端存储+OLTP数据库的一半,在几个TB甚至几十TB的数据量下,甚至也没有性能调优的必要。目前的最大问题是绝大部分企业还没有认识到这点。


第二节 HPE大数据平台产品方案

对于一个事实表多达数百亿记录,维表有数亿成员的分析主题,要在数百并发的条件下收获秒级响应能力,很明显需要大量的CPU、内存和IO资源。想象一下基于数百亿记录进行复杂的JOIN、GROUP操作所需要的计算量,一台小型机(P750或P780)显然是远远不够的。

大家可以在www.spec.org网站上查到几乎所有CPU型号的计算能力,当然也能查到P750或P780的CPU计算能力,随后就会发现小型机的CPU计算能力并不比普通PC服务器的CPU计算能力强多少。从这个意义上讲,与PC服务器相比,小型机的计算力是非常昂贵的,也是非常不划算的。

HPE大数据平台产品Vertica,首先是一个可以部署在廉价X86服务器(26万人民币)集群上的分布式MPP数据库产品,即便是10台X86服务器也比1台小型机便宜很多,CPU计算力就强太多了。同时小型机必须的中高端存储费用也省下来了,直接用X86服务器的本地硬盘就可以的。另外,HPE Vertica也可以部署在VMware虚拟化和Cloud环境 

那么是什么因素决定了分布式MPP数据库能否部署在廉价的X86服务器上呢? 我个人的观点是MPP产品的IO消耗量是关键因素

举个例子来说明这一点:如果一个cube的事实表是容量为10TB,包含100列的宽表,如果想让多维分析的响应时间不超过5秒,则事实表扫描的速度不能低于10TB/5秒=2TB/秒。通常每块SAS硬盘的扫描速率为50MB/秒,则对于行式存储的数据库,需要有2*1024*1024/50=41943块硬盘才能达到预期性能。而对于HPE Vertica这种列式数据库,按事实表扫描仅涉及5个column,5倍列压缩计算,只需要419块硬盘就能达到同样的效果。 

除了可基于列存储减少基表扫描的IO消耗外,HPE还可基于内存和延迟物化减少中间IO消耗,从而最终降低硬件设备IO能力需求

HPE Vertica是一个没有主节点限制的完全对等节点MPP数据库,即所有计算节点都能建立数据库会话,执行SQL解析,检索并利用统计信息建立执行计划,汇总计算结果。在复杂查询和多复杂场景下,仍能提供高并发能力。 

HPE Vertica有基于行格式和内存(WOS)的热数据存储和基于列格式和磁盘阵列(ROS)的冷数据存储,并有可严格控制数据加载时效的企业级Kafka加载组件。 

HPE Vertica可基于Hadoop加载各种数据(LZO、ORC、Parquet、hive、原始hdfs)。 

HPE Vertica产品内置了大量的高分析算法,具体包括地理分析、时序分析、模式分析、各类机器学习算法等。另外用户可用C++编写自己的UDT,来实现与自身业务相关的矩阵运算。 

HPE Vertica有完善的数据库集群跟踪、管理和监控系统,可以看到所有节点的状态,资源消耗等情况。 

这里特别提一下Vertica产品跟SmartBI达成战略合作伙伴关系,我们双方有一个合作。Smartbi提供一个功能强大的BI展现和分析功能,Vertica提供一个可横向扩展高性能后台处理引擎保障,如果一个cube有数十TB,100个并发达到3秒内响应能力,就需要Vertica作为分布式后台计算引擎提供性能保障。  


第三节 HPE大数据平台典型案例 

HPE Vertica全球典型客户包括华为(华为本身也是Hadoop厂商,也在使用Vertica)、优步、脸书、美国银行。中国最大的金融案例是中国邮政银行(128个节点的批量系统和48个节点的查询系统)。 

最后花点时间介绍一下Facebook案例,Fackbook预期数据量在10到100PB,把一体机厂商、Vertica、Hadoop厂商都叫到一块,最后经过反复权衡选择了Vertica产品。Facebook部署了600个节点的Vertica集群,用来基于客户行为分析做广告投放。 

Vertica上线后,Facebook的数据时效性由原来的T+1天提升到分钟级,支持上千个数据分析师和业务人员的在线查询操作,大量的在线机器学习和精准广告投放。 




【声明】内容源于网络
0
0
科技应用高峰论坛
促进保险公司信息化主管之间的经验分享,保险公司与信息化服务合作伙伴之间的沟通与交流,共同提高保险业的信息化水平
内容 0
粉丝 0
科技应用高峰论坛 促进保险公司信息化主管之间的经验分享,保险公司与信息化服务合作伙伴之间的沟通与交流,共同提高保险业的信息化水平
总阅读0
粉丝0
内容0