大数跨境
0
0

年度回顾 | Apache Cloudberry 2025:成长之年

年度回顾 | Apache Cloudberry 2025:成长之年 ApacheCloudberry
2025-12-31
4
导读:2026,继续进化,迈向毕业!

Apache Cloudberry™ (Incubating) 是 Apache 软件基金会孵化项目,由 Greenplum 和 PostgreSQL 衍生而来,作为领先的开源 MPP 数据库,可用于建设企业级数据仓库,并适用于大规模分析和 AI/ML 工作负载。

GitHub:  https://github.com/apache/cloudberry

文章作者:王殿进,Apache Cloudberry PPMC 成员;整理:酷克数据


2025 年对于 Apache Cloudberry (Incubating) 来说是具有决定性意义的一年。在过去的十二个月里,项目及其社区在版本发布、治理、基础设施建设以及生态系统扩展等方面都取得了稳步且富有意义的进展。本文将简要回顾 Apache Cloudberry 在 2025 年的关键里程碑,作为社区成员和爱好者了解 Apache Cloudberry 进展的一个窗口。

从提案到孵化

Apache Cloudberry 于 2024 年 10 月在成功通过投票后正式进入 Apache 孵化器,并于 2024 年 11 月完成了源代码仓库及基础设施向 Apache 软件基金会(ASF)的迁移。

这一初始阶段的重点是在 ASF 旗下建立坚实的基础:

  • 迁移代码仓库和 CI 基础设施
  • 完成项目更名和品牌更新
  • 调整文档和工作流程以符合 ASF 政策
  • 启动系统性的代码清理和合规工作
  • 广泛收集社区反馈并深入讨论、制定路线图

这些努力为 2025 年全年及以后的持续发展和增长奠定了坚实基础。

首个 Apache 版本:Apache Cloudberry 2.0.0 (Incubating)

2025 年最重要的里程碑之一是在 2025 年 8 月发布了 Apache Cloudberry (Incubating) 2.0.0 —— 这是项目的首个官方 Apache 孵化版本。

在发布此版本之前,社区完成了几项重大工作:

  • cherry-pick 并整合了大量 Greenplum 开源版本的归档代码
  • 完成 ASF 许可证和合规性要求(第三方代码溯源与合规审核、LICENSE 与 NOTICE 优化, 通过 Apache RAT 合规审查)
  • 清理遗留文件,替换非 Apache 协议兼容组件
  • 构建全新高效、符合 Apache 标准的 CI/CD 工作流
  • 进行多轮候选版本(RC)验证,并解决孵化器社区的反馈意见

此发布的版本一大亮点是引入了 PAX (Partition Attributes Across) 这种行列混合存储格式,也是由社区活跃贡献团队提交给核心代码库的一项重大创新。

2.0.0 版本的发布标志着项目从孵化初期的搭建阶段,迈向了常规化、规范化的 Apache 风格发布阶段。

更多 2.0.0 版本信息,请参阅 《Apache Cloudberry 2.0 前瞻:功能与改进速览》 和 《官宣:Apache Cloudberry (Incubating) 2.0.0 发布》;合规与治理方向,可查看《Apache Cloudberry 孵化之路:合规与治理实践》

社区成长

社区是任何 Apache 项目的核心。2025 年,Cloudberry 大家庭变得更加强大和多元化。

这一年,Cloudberry PPMC 很荣幸地宣告了四位新 Committer:熊佟张文超、龚勋和 Leonid Borchuk。

邮件列表讨论、GitHub Issue 以及 Slack、中文用户群组交流持续活跃,涵盖了内核升级、性能改进、扩展插件以及生态集成等广泛话题。作为孵化之旅的一部分,项目还特别强调透明治理、清晰的贡献指南以及对新贡献者的指导。

社区活动

2025 年,Apache Cloudberry 社区成员活跃在各类全球和区域性活动中,主要包括:

  • PostgresConf Global 2025
  • Flink Forward Asia 2025
  • Community Over Code Asia 2025
  • 位于亚洲、欧洲北美的 PostgreSQL 及大数据、开源社区 Meetup

除了会议演讲、展台展览,社区成员还在多个城市组织并参与了 Apache Cloudberry Meetup,分享技术更新、讨论路线图,并向新用户和贡献者介绍“Apache 之道”。这些活动有效提升了项目的知名度,并吸引了来自更广泛 PostgreSQL 和数据生态系统的新参与者。

单单 Apache Cloudberry 中文开发者与用户组在 2025 年就组织了上海杭州北京等城市的 Meetup 活动。

PostgreSQL 内核升级:PG 14 → PG 16

2025 年,项目启动了 Apache Cloudberry 的 PostgreSQL 内核升级工作,将 Apache Cloudberry 的 PostgreSQL 内核从 PostgreSQL 14.x 向 PostgreSQL 16.x 迁移,原归档的 Greenplum 7 版本将与 Apache Cloudberry 产生 4 个 PostgreSQL 版本代差(Greenplum 7 搭载 PostgreSQL 12 内核)。这一重大的内核升级工作仍在进行中,目前已经可以成功启动演示集群,预计 2026 年 1 ~ 2 月份左右完成。

如果你有兴趣参与此项工作,请关注邮件列表中的内核升级讨论[1]和 GitHub Project[2] 看板,内核升级工作分支位于 https://github.com/apache/cloudberry/tree/cbdb-postgres-merge。

生态系统与集成

在“上游优先(Upstream first)”理念的驱动下,Apache Cloudberry 生态系统在 2025 年显著成长。

原生集成

目前已有多个广泛使用的工具提供了对 Apache Cloudberry 的原生支持,包括:

  • DBeaver[3]用于数据库管理和 SQL 开发
  • WAL-G[4]支持灾难恢复和持续归档
  • Apache SeaTunnel[5]:助力高性能数据集成
  • Flink JDBC Connector[6](v3.3.0+):支持实时流数据摄入

此外下面社区组件保持更新:

  • PostGIS for Cloudberry[7]升级到 PostGIS 3.3.2,解锁高级地理空间分析能力
  • kafka_fdw for Cloudberry[8]:支持 Cloudberry 高效处理 Kafka 中的实时数据
  • cbcopy[9]支持从 Greenplum 迁移到 Cloudberry
  • ParadeDB for Cloudberry[10]:支持在 Cloudberry 运行检索和分析
  • pgvector for Cloudberry[11]:升级到 0.8 版本,支持 Cloudberry 具备相似性搜索功能

跨项目协作

目前,为 Apache MADlib 添加原生 Apache Cloudberry 支持的工作正在积极进行中,这将加强 Apache Cloudberry 在高级分析和机器学习负载方面的地位。这种协作凸显了 Apache 生态系统的优势——不同项目携手合作,共同交付集成解决方案。

子仓库整合

此外,社区还整合了多个子仓库以增强开发者体验:

  • cloudberry-gpbackup 已更名为 cloudberry-backupS3 插件[12] 也已合并到 cloudberry-backup 仓库中。
  • apache/cloudberry-devops-release 和 apache/cloudberry-bootcamp 也已分别整合到 Cloudberry 主仓库的 `devops/`[13] 和 `devops/sandbox`[14] 目录下。

展望未来

随着 2025 年接近尾声,Apache Cloudberry 的基础比一年前更加坚实:

  • 完成了首个 Apache 版本发布
  • 拥有一个不断壮大且更加多元化的贡献者社区
  • 积极参与全球开源活动
  • 持续推进内核现代化
  • 生态集成不断扩展

Apache Cloudberry 将继续专注于主仓库建设、社区增长、常规化 Apache 版本发布和生态系统扩展,并朝着从 Apache 孵化器毕业的目标迈进。我们要感谢所有贡献者、导师和社区成员,是你们让 2025 年成为 Apache Cloudberry 富有成效和进步巨大的一年。

加入 Apache Cloudberry 社区

Apache Cloudberry 遵循开放和透明的治理原则,可以关注我们的孵化报告[15]以了解关键社区事件和项目进展。

加入社区:

  • GitHub: github.com/apache/cloudberry[16]
  • Slack: 加入 Slack 空间[17]
  • 邮件列表: lists.apache.org/list.html?dev@cloudberry.apache.org[18]
  • 官网: cloudberry.apache.org[19]

参考资料

[1] 

邮件列表中的内核升级讨论: https://lists.apache.org/list.html?dev@cloudberry.apache.org

[2] 

GitHub Project: https://github.com/orgs/apache/projects/497

[3] 

DBeaver: https://dbeaver.io/

[4] 

WAL-G: https://github.com/wal-g/wal-g

[5] 

Apache SeaTunnel: https://seatunnel.apache.org/docs/2.3.12/connector-v2/source/Cloudberry

[6] 

Flink JDBC Connector: https://github.com/apache/flink-connector-jdbc

[7] 

PostGIS for Cloudberry: https://github.com/cloudberry-contrib/postgis

[8] 

kafka_fdw for Cloudberry: https://github.com/cloudberry-contrib/kafka_fdw

[9] 

cbcopy: https://github.com/cloudberry-contrib/cbcopy

[10] 

ParadeDB for Cloudberry: https://github.com/cloudberry-contrib/paradedb

[11] 

pgvector for Cloudberry: https://github.com/cloudberry-contrib/pgvector

[12] 

S3 插件: https://github.com/apache/cloudberry-gpbackup-s3-plugin

[13] 

devops/https://github.com/apache/cloudberry/tree/main/devops

[14] 

devops/sandboxhttps://github.com/apache/cloudberry/tree/main/devops/sandbox

[15] 

孵化报告: https://whimsy.apache.org/board/minutes/Cloudberry.html

[16] 

github.com/apache/cloudberry: https://github.com/apache/cloudberry

[17] 

加入 Slack 空间: https://inviter.co/apache-cloudberry

[18] 

lists.apache.org/list.html?dev@cloudberry.apache.org: https://lists.apache.org/list.html?dev@cloudberry.apache.org

[19] 

cloudberry.apache.org: https://cloudberry.apache.org

👇🏻️扫码加入 Apache Cloudberry 交流群👇🏻️

【声明】内容源于网络
0
0
ApacheCloudberry
ASF 孵化项目,领先的开源 MPP 数据库,可用作数据仓库,并适用于大规模分析和 AI/ML 工作负载,本账号由 PPMC 成员维护
内容 24
粉丝 0
ApacheCloudberry ASF 孵化项目,领先的开源 MPP 数据库,可用作数据仓库,并适用于大规模分析和 AI/ML 工作负载,本账号由 PPMC 成员维护
总阅读62
粉丝0
内容24