导读
Greenplum归档
2024年5月底,Greenplum 404-已归档,引发业界广泛关注。
作为最早的MPP架构数仓代表,Greenplum在数据仓库领域有着不可替代的地位。
对Greenplum的忠实用户来说,这个消息无疑是个“惊雷”。归档意味着什么?是否闭源?目前结果如何还不得而知,但从众多Greenplum的用户的角度看,这无疑是开源数据库生态的巨大损失。我们衷心希望Greenplum能够挺过眼前的困境。
回顾数据领域的技术演进
纵览数据库发展史,从层出不穷的新品类到百花齐放的开源项目,从来不缺变革和创新。正如 Greenplum 诞生时那样,它所代表的 MPP 架构,是数仓演进过程中浓墨重彩的一笔。
数仓技术大致经历了四代更迭:
第一代是单体数仓,以 Teradata 为代表;
第二代是 MPP 架构和Hadoop分布式数仓为代表,Greenplum 就是这个时期MPP架构的翘楚;
第三代是以云厂商Redshift,Bigquery为代表的云上数仓;
第四代则是正在发生融合多云如Snowflake,融合数据湖与数据仓库理念如Databricks、云器Lakehouse,结合AI的下一代数仓。
在这个演进过程中,每一代技术的出现都是为了应对业务发展和数据增长带来的新挑战。从这个角度看,Greenplum 的落幕绝不意味着终结,而是数据技术演进生命力的体现,是技术生态发展的必然,是数仓技术不断迭代、日臻成熟的缩影。未来,我们相信还会有更多创新的架构设计和实现方案涌现,以满足企业级数仓的苛刻需求。
对于正面临迁移抉择的 Greenplum 用户来说,当下正是结合自身情况,重新审视和理解业务、数据、技术的大好时机。在危机中育新机,于变局中开新局。
当务之急:迁移评估刻不容缓
对于企业用户而言,Greenplum未来的不确定性已经给其数仓规划带来实质性影响。支持的不稳定,意味着必须要提上日程、未雨绸缪地进行迁移评估与规划。
每一次数仓迁移,既是挑战,也是契机。在这个分水岭上,选择一个合适的目标平台至关重要,它直接关系到企业未来几年甚至十几年的数字化发展根基。现在就是一个绝佳的机会,去重新审视企业的数据战略,去思考在新形势下,什么样的架构能更好地支撑业务发展。
把握迁移的窗口期,前瞻性地提升数仓能力,将助力企业在数字经济时代持续领跑。
案例启示:头部客户从Greenplum迁移升级到Lakehouse数据平台的实践与思考
谈及从传统数仓向下一代数仓架构迁移,云原生湖仓平台(Lakehouse)是一个备受瞩目的方向。云器科技近期就有一位头部客户,顺利完成了从Greenplum到云器Lakehouse的迁移。那么,客户为什么要提前布局迁移?实践中效果如何?有没有可借鉴的经验?接下来,我们通过一个真实的案例,看看企业出于什么样的考虑选择了这一路径,又是如何一步步去落地实施的。
这是一家快速成长头部Top 1的SaaS企业,为了支撑业务的高速发展,他们6年前选择了当时最先进的MPP架构数据仓库Greenplum,并基于此持续进行了大量的优化。然而这家企业作出迁移的决策时刻,是早在Greenplum 此次404事件之前的一年,因当时原有的架构逐渐显露出了一些问题,遇到挑战:
-
有时效性更高的数据分析需求,亟需实时数仓的布局;
-
B端大客户对数据规模、查询灵活性、可视化效果等方面有更高要求,但碍于系统扩展困难,无法满足;
-
扩容成本高企,在当下降本增效的大背景下,继续投入的性价比不高;
-
数据来源日益多元,传统数仓在接入半结构化、非结构化数据时捉襟见肘;
-
AI时代对数据的消费提出了新的需求,灵活支持机器学习、深度学习等新型负载成为当务之急。
面对新的业务形势和技术趋势,客户选择与云器科技合作,借助一体化Lakehouse产品方案对原有架构进行全面升级:
图4:一体化Lakehouse的价值
-
首先,Lakehouse可以轻松实现批、流数据的统一集成,把分散在各处的结构化、半结构化数据汇聚到一个统一的平台,构建企业数据资产的“单一视图”;
-
其次,通过计算存储分离、弹性扩缩容、智能优化、一体化调度等云原生技术,性能和扩展性得到大幅提升,轻松应对高并发、高时效性的业务分析诉求;制约数据业务扩展的瓶颈得以打开。
-
再次,开箱即用的流批一体架构大大简化了实时数仓的构建,低成本全域亚秒级数据同步成为可能;
-
此外,开放的数据湖底层数据格式,让数据资产和AI的结合更具空间,连接机器学习平台,让AI应用从数据准备到模型训练、上线、极大降低了企业智能化的门槛。

图5:云器Lakehouse VS Greenplum
迁移的效果是非常显著的:通过迁移至云器Lakehouse平台,性能大幅提升,以往跑几个小时的任务现在分钟级即可完成,8000张表的日常数据分析最高延时不超过5分钟,绝大部分维度数据都实现了亚秒级同步。查询效率也有了数量级的飞跃,单SQL查询RT不超过4秒,单POD QPS达到150。这一切都在成本可控的前提下实现,让数据洞见驱动业务增长真正成为可能。
图6:升级后的SQL查询性能对比
客户打造了全新的湖仓一体数据平台:
-
重构了数据同步方案,数据实时性大幅度提升。 -
实时计算能力提升30%以上,BI的限制逐步放开:视图中度量指标的数量限制、BI订阅的限制等 -
云原生湖仓一体:CRM内外部数据(结构数据、半/非结构数据)
结语:拥抱变革,扬帆起航
Greenplum的归档,给业界带来了一定的震动。从情感上说,我们对GP数仓先驱充满敬意,也对其前途满怀期许。作为数据从业者,我们更加深刻地认识到,唯一不变的就是变化本身。
纵观数据库发展历程,产品、技术、理念无时无刻不在迭代更新。这既是时代的要求,也是市场竞争的结果。从这个意义上说,数仓的未来一定是开放的,只有在百家争鸣中,在用户需求的锤炼中,才能诞生真正经得起考验的方案。
对于面临迁移抉择的Greenplum用户而言,当务之急是要全面评估业务需求、数据规模、技术栈,理清现有系统的瓶颈制约因素,继而规划建设路线图。笔者建议考虑开放且融合的数据平台,为AI时代做足能力准备。
AI时代,每个企业都面临全新的挑战,站在数字化转型的浪潮之巅,我们比以往任何时候都更需要变革的勇气。
END
▼点击关注云器科技公众号,优先试用云器Lakehouse!
关于云器
往期推荐

