开栏的话
加强数字化转型理念宣贯,提高干部员工对数字化转型重要意义的认识,营造数字化转型文化氛围,是落实集团公司数字化转型指导意见要求的具体行动,也是抚顺石化顺利实施数字化转型的先决条件。抚顺石化人公众号开设聚焦“两化融合”专栏,宣传贯彻数字化转型工作理念,介绍企业数字化转型的关键任务,凝聚共识形成合力,共同推动抚顺石化数字化转型、智能化发展,为早日实现“数字中国石油”“智慧中国石油”贡献智慧和力量。
数据湖最初是由大数据厂商提出的,是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化数据(如CSV、日志、XML、JSON),非结构化数据(如电子邮件、文档、PDF)和二进制数据(如图形、音频、视频)。
数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案,而不是某个单一独立产品。数据存储架构要有足够的扩展性和可靠性,要满足企业能把所有原始数据都“囤”起来,存得下、存得久。数据处理工具,则分为两大类。
第一类工具,解决的问题是如何把数据“搬到”湖里,包括定义数据源、制定数据访问策略和安全策略,并移动数据、编制数据目录等等。如果没有这些数据管理/治理工具,元数据缺失,湖里的数据质量就没法保障,“泥石俱下”,各种数据倾泻堆积到湖里,最终好好的数据湖,慢慢就变成了数据沼泽。
第二类工具,就是要从湖里的海量数据中“淘金”。数据并不是存进数据湖里就万事大吉,要对数据进行分析、挖掘、利用,比如要对湖里的数据进行查询,同时要把数据提供给机器学习、数据科学类的业务,便于“点石成金”。
数据湖能给企业带来多种能力,例如,能实现数据的集中式管理,在此之上,企业能挖掘出很多之前所不具备的能力。另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。
策划|赵勇 毛军 董光顺 孙世杰
作者|李冬铃 衣林爽
责任编辑|田可冰
审核|毛军 孙世杰

