大数跨境
0
0

面对Greenplum归档,企业数据仓库的迁移抉择

面对Greenplum归档,企业数据仓库的迁移抉择 云器科技
2024-06-03
2

导读




作者:苏郡城,云器科技运营总监,云计算大数据领域专家。曾主导阿里云国际业务数据体系建设,十余年一线数据化运营实战,助力企业实现数字化增长,热衷于技术社区分享。


专栏“云声数语”甄选云计算大数据前沿动态和实践干货,致力于启发数字化转型新思路。欢迎关注云器科技公众号,与数据对话与智慧同行,改变数据的使用方式!


Greenplum归档


2024年5月底,Greenplum 404-已归档,引发业界广泛关注。


图1:Greenplum 404


作为最早的MPP架构数仓代表,Greenplum在数据仓库领域有着不可替代的地位。


对Greenplum的忠实用户来说,这个消息无疑是个“惊雷”。归档意味着什么?是否闭源?目前结果如何还不得而知,但从众多Greenplum的用户的角度看,这无疑是开源数据库生态的巨大损失。我们衷心希望Greenplum能够挺过眼前的困境。


回顾数据领域的技术演进


纵览数据库发展史,从层出不穷的新品类到百花齐放的开源项目,从来不缺变革和创新。正如 Greenplum 诞生时那样,它所代表的 MPP 架构,是数仓演进过程中浓墨重彩的一笔。


数仓技术大致经历了四代更迭:


第一代是单体数仓,以 Teradata 为代表;

第二代是 MPP 架构和Hadoop分布式数仓为代表,Greenplum 就是这个时期MPP架构的翘楚;

第三代是以云厂商Redshift,Bigquery为代表的云上数仓;

第四代则是正在发生融合多云如Snowflake,融合数据湖与数据仓库理念如Databricks、云器Lakehouse,结合AI的下一代数仓。


图2:数据平台的发展历史


在这个演进过程中,每一代技术的出现都是为了应对业务发展和数据增长带来的新挑战。从这个角度看,Greenplum 的落幕绝不意味着终结,而是数据技术演进生命力的体现,是技术生态发展的必然,是数仓技术不断迭代、日臻成熟的缩影。未来,我们相信还会有更多创新的架构设计和实现方案涌现,以满足企业级数仓的苛刻需求。


对于正面临迁移抉择的 Greenplum 用户来说,当下正是结合自身情况,重新审视和理解业务、数据、技术的大好时机。在危机中育新机,于变局中开新局。


当务之急:迁移评估刻不容缓


对于企业用户而言,Greenplum未来的不确定性已经给其数仓规划带来实质性影响。支持的不稳定,意味着必须要提上日程、未雨绸缪地进行迁移评估与规划。


每一次数仓迁移,既是挑战,也是契机。在这个分水岭上,选择一个合适的目标平台至关重要,它直接关系到企业未来几年甚至十几年的数字化发展根基。现在就是一个绝佳的机会,去重新审视企业的数据战略,去思考在新形势下,什么样的架构能更好地支撑业务发展。


把握迁移的窗口期,前瞻性地提升数仓能力,将助力企业在数字经济时代持续领跑。


案例启示:头部客户从Greenplum迁移升级到Lakehouse数据平台的实践与思考


谈及从传统数仓向下一代数仓架构迁移,云原生湖仓平台(Lakehouse)是一个备受瞩目的方向。云器科技近期就有一位头部客户,顺利完成了从Greenplum到云器Lakehouse的迁移。那么,客户为什么要提前布局迁移?实践中效果如何?有没有可借鉴的经验?接下来,我们通过一个真实的案例,看看企业出于什么样的考虑选择了这一路径,又是如何一步步去落地实施的。


一年前为什么选择从Greenplum迁移


这是一家快速成长头部Top 1的SaaS企业,为了支撑业务的高速发展,他们6年前选择了当时最先进的MPP架构数据仓库Greenplum,并基于此持续进行了大量的优化。然而这家企业作出迁移的决策时刻,是早在Greenplum 此次404事件之前的一年,因当时原有的架构逐渐显露出了一些问题,遇到挑战:


  • 有时效性更高的数据分析需求,亟需实时数仓的布局;

  • B端大客户对数据规模、查询灵活性、可视化效果等方面有更高要求,但碍于系统扩展困难,无法满足;

  • 扩容成本高企,在当下降本增效的大背景下,继续投入的性价比不高;

  • 数据来源日益多元,传统数仓在接入半结构化、非结构化数据时捉襟见肘;

  • AI时代对数据的消费提出了新的需求,灵活支持机器学习、深度学习等新型负载成为当务之急。

具体的挑战与解决方案:


图3:原架构的主要挑战与解决方案


Lakehouse数据平台的价值是什么

面对新的业务形势和技术趋势,客户选择与云器科技合作,借助一体化Lakehouse产品方案对原有架构进行全面升级:


图4:一体化Lakehouse的价值


  • 首先,Lakehouse可以轻松实现批、流数据的统一集成,把分散在各处的结构化、半结构化数据汇聚到一个统一的平台,构建企业数据资产的“单一视图”;

  • 其次,通过计算存储分离、弹性扩缩容、智能优化、一体化调度等云原生技术,性能和扩展性得到大幅提升,轻松应对高并发、高时效性的业务分析诉求;制约数据业务扩展的瓶颈得以打开。

  • 再次,开箱即用的流批一体架构大大简化了实时数仓的构建,低成本全域亚秒级数据同步成为可能;

  • 此外,开放的数据湖底层数据格式,让数据资产和AI的结合更具空间,连接机器学习平台,让AI应用从数据准备到模型训练、上线、极大降低了企业智能化的门槛。


图5:云器Lakehouse VS Greenplum


验证迁移到云器Lakehouse的效果

迁移的效果是非常显著的:通过迁移至云器Lakehouse平台,性能大幅提升,以往跑几个小时的任务现在分钟级即可完成,8000张表的日常数据分析最高延时不超过5分钟,绝大部分维度数据都实现了亚秒级同步。查询效率也有了数量级的飞跃,单SQL查询RT不超过4秒,单POD QPS达到150。这一切都在成本可控的前提下实现,让数据洞见驱动业务增长真正成为可能。


图6:升级后的SQL查询性能对比


客户打造了全新的湖仓一体数据平台:


  1. 重构了数据同步方案,数据实时性大幅度提升。
  2. 实时计算能力提升30%以上,BI的限制逐步放开:视图中度量指标的数量限制、BI订阅的限制等
  3. 云原生湖仓一体:CRM内外部数据(结构数据、半/非结构数据)


图7:基于云器Lakehouse升级后的新架构


结语:拥抱变革,扬帆起航


Greenplum的归档,给业界带来了一定的震动。从情感上说,我们对GP数仓先驱充满敬意,也对其前途满怀期许。作为数据从业者,我们更加深刻地认识到,唯一不变的就是变化本身。


纵观数据库发展历程,产品、技术、理念无时无刻不在迭代更新。这既是时代的要求,也是市场竞争的结果。从这个意义上说,数仓的未来一定是开放的,只有在百家争鸣中,在用户需求的锤炼中,才能诞生真正经得起考验的方案。


对于面临迁移抉择的Greenplum用户而言,当务之急是要全面评估业务需求、数据规模、技术栈,理清现有系统的瓶颈制约因素,继而规划建设路线图。笔者建议考虑开放且融合的数据平台,为AI时代做足能力准备。


AI时代,每个企业都面临全新的挑战,站在数字化转型的浪潮之巅,我们比以往任何时候都更需要变革的勇气。


  END  

▼点击关注云器科技公众号,优先试用云器Lakehouse!


        关于云器        

云器Lakehouse作为面向企业的全托管一体化数据平台,只需注册账户即可管理和分析数据,无需关心复杂的平台维护和管理问题。新一代增量计算引擎实现了批处理、流计算和交互式分析的统一,适用于多种云计算环境,帮助企业简化数据架构,消除数据冗余。

点击文末“阅读原文”,前往云器官网申请试用,了解更多产品细节!

官网:yunqi.tech
B 站:云器科技
知乎:云器科技


往期推荐 




【声明】内容源于网络
0
0
云器科技
云器科技是一家多云、一体化数据平台提供商。自研以“Single-Engine”为核心理念的湖仓平台,帮助企业聚焦数据型业务创新。
内容 43
粉丝 0
云器科技 云器科技是一家多云、一体化数据平台提供商。自研以“Single-Engine”为核心理念的湖仓平台,帮助企业聚焦数据型业务创新。
总阅读18
粉丝0
内容43