“随着互联网的加速发展和移动互联网的快速兴起,数据采集更方便、数据种类更丰富,行为轨迹、语音视频等非结构化数据爆发式增长,数据规模进一步扩大。在新形势下,传统的数据库、数据仓库等处理技术无法适应快速响应、实时分析的数据需求,难以处理日志、语音等非结构化数据,企业迫切需要一个新型大数据解决方案——“ 数据湖 ”应运而生。”
01
—
数据湖起源
数据湖通常被定位为各类原始数据的集中存储库。在数据内容方面,既包括业务系统数据的原始副本,也包括用于报告、分析和机器学习等任务的加工后数据;在数据格式方面,既包括来自关系数据库的结构化数据,也包括半结构化数据(XML、JSON)、非结构化数据(图像、音视频、文档)等。随着技术的不断发展和应用的不断深入,人们逐渐发现数据湖仅存储不管理会带来一系列问题。湖内各类数据又多又杂难以使用,最终会退化为“数据沼泽”,存储其中的数据也失去价值。因此,数据湖必须精细管控、有序开放,不仅要支持海量异构数据的集中存储,还要能支持海量数据的分析处理,实现存得下、管得好、用得上。

02
—
数据湖的应用场景
1.丰富客户画像
数据湖集中了客户的照片、语音、文本、行为等各种结构和类型的数据,支持各种引擎对数据全方面的探查分析,将非结构化数据与结构化数据相融合,在现有的以结构化数据为主的客户分析视图中,补充非结构化数据特有的用户个性数据,全方位丰富客户画像,构建以“客户为中心”的全景视图。
2.实时产品营销
通过埋点工具捕获客户在掌银、网银、小程序等各渠道的行为日志信息,实时传输到数据湖中,利用实时数据引擎,减少数据加工时间,缩短数据加工链路,第一时间完成场景分析,关联客户交易行为,挖掘客户业务需求场景,实现实时的产品推荐与精准营销。
3.深挖客户需求
对银行现有客户群,开展进一步的用户需求挖掘,主动将银行服务与客户的潜在需求进行匹配,通过多种分析引擎,完成服务与客户的关联,实现服务主动找客户、主动服务客户的功能。例如,在数据湖中,结合银行现有服务场景,使用机器学习技术,对数据湖中存储的客户行驶证影像数据进行分析,获取客户的购车日期、车型档次等信息,精准定位客户车型续保时点,预测客户换车需求,为车险、购车分期等信用卡产品营销活动提供参考。

03
湖仓一体化
打通数据的存储与计算
很多公司对各类数据应用包括 SQL 分析、实时监控、数据科学和机器学习的灵活性、高性能系统的需求并未减少。AI 的大部分最新进展是基于更好地处理非结构化数据(如 text、images、video、audio )的模型,完全纯数据仓库的二维关系表已经无法承接半 / 非结构化数据的处理,AI 引擎不可能只跑在纯数据仓库模型上。一种常见的解决方案是结合数据湖和数据仓库优势,建立湖仓一体化,进而解决了数据湖的局限性:直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。
灵活性与成长性兼得
当企业处于初创阶段,数据从产生到消费还需要一个创新探索的阶段才能逐渐沉淀下来,那么用于支撑这类业务的大数据系统,灵活性就更加重要,数据湖的架构更适用。
当企业逐渐成熟起来,已经沉淀为一系列数据处理流程,问题开始转化为数据规模不断增长,处理数据的成本不断增加,参与数据流程的人员、部门不断增多,那么用于支撑这类业务的大数据系统,成长性的好坏就决定了业务能够发展多远。数据仓库的架构更适用。
04
行业数据湖建设情况
数据湖技术正处于蓬勃发展期,市面上各类开源和商业产品百花齐放,主要分为Hadoop数据湖和云原生数据湖两大体系,均以“存算分离”和“流批融合”等关键技术为支撑,向着“湖仓一体”的架构演进。
金融同业近两年也在积极开展数据湖技术的研究,逐步落地并不断演化。华毅软件帮助某银行已初步建成Hadoop数据湖,支持数据批量加工、实时分析和交互式分析,计划未来将数据湖迁移到私有云上,同步也在共同探索向“湖仓一体”的架构演化。


