大数跨境

中国保险IT应用高峰论坛报告实录——大数据建设再思考

中国保险IT应用高峰论坛报告实录——大数据建设再思考 科技应用高峰论坛
2017-11-10
0
导读:星环科技的目标是打造世界领先的大数据引擎,迄今为止我们在国内的落地案例超过了400多个,在2016年数据仓库和数据管理解决方案这两个领域评比中,我们都入围了Gartner的魔力象限,也是国内唯一入围的

各位领导大家好!我是星环的胡利,今天我将从以下几个方面介绍一下星环科技,首先是公司简介,然后我们的产品、产品优势、最后是行业应用案例。

    

首先星环科技的目标是打造世界领先的大数据引擎,迄今为止我们在国内的落地案例超过了400多个,在2016年数据仓库和数据管理解决方案这两个领域评比中,我们都入围了Gartner的魔力象限,也是国内唯一入围的Hadoop大数据平台。

    

2003年到开始Hadoop还是一个论文,到今年已经经历了14个年头,在这14年里,有几个比较关键的节点,大家可以看到2007Hadoop第一版本发布,到2008年星环科技研发团队开始同步研发,2013年星环科技成立。20082013年是孙元浩先生在Intel亚太区研究院负责Hadoop生产线,到2013Intel放弃中国市场的时候,孙总有爱国心毅然决然留下来,他想中国一定会有自己的大数据平台。他2013年自己创业,星环科技基于Spark的交互式SQL引擎(Inceptor)能稳定处理100TB,支持分布式事务和存储过程,Spark技术已经领先于国外同行。

    

从2014年、2015年各大友商也开始做,星环在这个领域里领先一年到一年半时间2016年我们入围Gartner,同样入围的有其他五家美国厂商。

    

星环公司团队是这样的,在上海是星环总部,北京广州设有分公司,全国各地十个办事处。我们把业务拓展到国外,美国纽约和休斯敦都有办事处,星环已经完成了C轮融资,共4.6亿。公司员工有三百人,两百多人是研发团队。我们成员主要来自因特尔、IBM等国际知名的厂商。

    

说到星环科技的定位,主要是以下三层,第一册是基础架构层,第二层是Hadoop和传统数据库层,在第三层是机器学习和数据挖掘层。

    

到目前为止星环案例将近500家,公安交通行业占市场份额达到90%,金融我们已经有超过50家金融客户的案例,市场份额达到60%,再加上广电、能源、电力、互联网、电信运营商,近500家落地。在中国大数据行业排名靠前。

    

这是目前成交的一部分,也在逐渐完善当中。我也跟好多领导一起探讨过,Hadoop已经发展有几年了,对于金融行业来讲,我从四个方面去看应用,像银行,历史数据查询,搜索分析这是最简单的应用,还有一些迁移原有数据仓库以及ODS场景下星环也有案例。还有风控和营销类的大数据应用。

    

第二部分介绍一下星环产品,我们市场推广比较多的是大数据技术平台,第二款我们是基于docker技术轻量级微服务平台的TOS云计算平台,第三款是超融合一体机。

    

现在我们正进入大数据智能的时代,我们想通过大数据解决以下四V的问题,首先是体量,大家也知道现在数据越来越大,从一开始Tb级,到现在Eb级,数据体量增加很快。第二数据类型多样化,以前更多是结构化化数据,现在有好多非结构化数据比如文本、视频、语音,存储起来也是比较大的问题。

    

第三是我们对速度的要求,以前我们工作的时候,一些系统T+1或者T+2就能满足要求;现在有好多实时场景要求,比如行业反欺诈,对实时率要求很高,甚至秒级、毫秒级。

    

最后是数据价值,因为数据资产是每个公司核心竞争力,我们在数据挖掘组件里也有很好的产品,可以把现有数据进行数据挖掘、整理,起到对我们业务有更好的帮助的作用。

    

下面给大家介绍一下我们星环科技5.0全新产品,底层用了我们的云服务产品。那在上面一点,是用开源的Hadoop模块,当然我们给他们做了10%优化,再上面一层我们是基于spark自己重新写的,两千多万条代码。

    

左上角是自主开发工具Waterdrop ;第二块是基于大数据平台的ETL工具,可以实现传统数据库到hadoop数据库的准实时同步;第三块是数仓、ods场景的时候做调度用的workflow;第四个是govner,这里包括权包括数据字典、包括血缘分析、影响性分析等。Rubik是一款用于设计OLAP Cube的可视化工具,所建Cube可以实例化于HDFSHolodeskRubik支持雪花模型和星形模型两种Cube 设计模型,并支持多种格式的数据源(包括HDFS和远程RDBMS)。实验显示,在数据立方体的加速下,分析查询的速度可提高10倍。 Rubik通过可视化方式提供服务,使数据分析师得到更友好的交互体验。 


TDH产品的主要技术优势包括以下几个方面:


极致的性能与可扩展性 TDH的批处理速度是开源 Hadoop10-100倍,是MPP5-10倍,可以对从GB PB级的数据量实现复杂的查询和分析。TDH具有高 可扩展性,用户可以通过增加集群节点数量,线性提 高系统的处理能力。 


容器技术与大数据平台 TDH支持部署于TOS之上。 TOS是为大数据应用量身订做的云操作系统 ,基于 DockerKubernetes,支持一键部署TDH、扩容、缩 容,同时支持基于优先级的抢占式资源调度和细粒度 资源分配。 


完整的SQLACID支持 Transwarp Inceptor是第一 个实现完整SQL支持的Hadoop发行产品。它不仅支 SQL 2003Oracle PL/SQL以及DB2 SQL PL,还 实现了完整的ACIDCRUD功能。TDH提供JDBC ODBC驱动连接,方便第三方工具运行于TDH之上。 低延迟的流处理 Transwarp Slipstream是同时支持事 件驱动和微批处理的流处理引擎,计算延迟最低可至 5ms。它提供标准的SQL编程接口,还支持高可用性 (HA)Exactly-Once的语义,从而支持7x24小时的 生产业务。 


丰富的机器学习和深度学习功能 Transwarp Discover 支持用户通过R语言和Python开发机器学习项目,也 可以用图形化的工具做分析。深度学习平台Sophon 帮助用户快捷的创建AI应用程序。 


大数据上的全文搜索 Transwarp Search支持通过 SQL实现大数据上的秒级全文搜索,它利用层次化存 储、堆外内存管理等创新性技术,极大的提高了系统 的可用性。此外,Search还可以结合Inceptor提供较 强的数据分析能力。 


图形化的大数据开发工具套件 Transwarp StudioTDH中的大数据开发工具集,包括元数据管理 Governor、工作流Workflow、数据整合工具Transporter Cube设计工具Rubik以及报表工具Pilot。用户可以使 用这些图形化工具来提高大数据的开发效率,降低技 术门槛。 


多样化的数据处理功能 Transwarp Hyperbase用于 存储和计算结构化或非结构化数据,包括日志记录、 JSON/XML文件以及二进制数据(如图像和视频) Hyperbase底层是KV的数据库,因此其非常适合高频 次的数据入库、高并发精确检索等业务。 简易的操作和管理 Transwarp Manager是专门用于 部署、管理和运维TDH集群的组件。它支持产品一键 安装、一键升级和图形化运维,并提供了预警和健康 检测功能,帮助用户简化运维过程。 统一的安全/多租户管理 Transwarp GuardianTDH 台中实现安全控制和资源管理的中央服务平台,它 支持KerberosLDAP认证,可以做细粒度的权限控 制,并且提供租户管理功能。 


下面详细说一下我们的工具:


自主开发工具Waterdrop ;第二块是基于大数据平台的ETL工具,可以实现传统数据库到hadoop数据库的准实时同步;第三块是数仓、ods场景的时候做调度用的workflow;第四个是govner,这里包括权包括数据字典、包括血缘分析、影响性分析等。Rubik是一款用于设计OLAP Cube的可视化工具,所建Cube可以实例化于HDFSHolodeskRubik支持雪花模型和星形模型两种Cube 设计模型,并支持多种格式的数据源(包括HDFS和远程RDBMS)。实验显示,在数据立方体的加速下,分析查询的速度可提高10倍。 Rubik通过可视化方式提供服务,使数据分析师得到更友好的交互体验。

 

近期我们对开源社区也有自己的贡献,我们已经正式发布社区版。各位领导可以免费使用我们的产品。

    

最后分享两个案例,第一是恒丰银行,是用星环完全替代了甲骨文,目前为止已经在平台上使用,这是银行领导对大数据平台下的支持,在数仓协议方面从甲骨文迁到Hadoop,投资成本是原来1/3,整体性能是5倍,几十天就完成了。

    

业务创新方面我们建立了非结构化数据平台,做存储、查询、分析,还建立了实时流数据处理平台,主要做数据指标监控、实时反欺诈、实时营销,以及反洗钱。

    

保险行业目前我们有一些案例,华夏人寿、国寿、太平、渤海人寿、德华安顾等。也做了一个电销数据管理平台,数据查询以及精准营销和精准营销管理系统。


最后再说一下中国邮政的案例,这个是星环科技替代TD的典型案例,加上之前遇到的一些困难,主要存在以下几个方面,第一是存储空间,当时他们计划三年时间,但是刚过两年的时候发现使用空间已经超过85%,而且做一些数据整备的时候,从几小时到十几小时,严重影响了人员的时间。再一个是处理性能方面,最根本的还是说成本比较高。

    

左边是Teradata配置,采用Teradata一体机,这样算下来软硬件成本几千万以上,每年维修费用几百万。

    

我们公司选优30X86PC,软硬件成本1千万以内。为甲方节省了成本400%以上,性能方面星环方案是TD的几百倍。

    

以上就是我今天分享的内容,谢谢大家!

    

    


【声明】内容源于网络
0
0
科技应用高峰论坛
促进保险公司信息化主管之间的经验分享,保险公司与信息化服务合作伙伴之间的沟通与交流,共同提高保险业的信息化水平
内容 0
粉丝 0
科技应用高峰论坛 促进保险公司信息化主管之间的经验分享,保险公司与信息化服务合作伙伴之间的沟通与交流,共同提高保险业的信息化水平
总阅读0
粉丝0
内容0