大数跨境
0
0

活动回顾|Apache Cloudberry™ (Incubating) Meetup · 深圳站

活动回顾|Apache Cloudberry™ (Incubating) Meetup · 深圳站 ApacheCloudberry
2026-01-23
2
导读:期待下次相聚!🍻

Apache Cloudberry™ (Incubating) 是 Apache 软件基金会孵化项目,由 Greenplum 和 PostgreSQL 衍生而来,作为领先的开源 MPP 数据库,可用于建设企业级数据仓库,并适用于大规模分析和 AI/ML 工作负载。

GitHub:  https://github.com/apache/cloudberry


自 2024 年进入 Apache 孵化器以来,Apache Cloudberry 社区在社区治理、核心架构演进与功能增强等多个维度稳步推进。随着 2.0 版本的正式发布,一系列关键能力逐步完善,面向后续版本 2.x 与 3.x 的技术路线也已逐渐清晰。为进一步凝聚社区力量、回顾年度成果并展望未来方向,酷克数据 HashData 携手 Apache Cloudberry 社区,于 2026 年 1 月 17 日在深圳市南山区华润置地大厦举办 Apache Cloudberry™ (Incubating) Meetup · 深圳站暨 2025 中文开发者与用户组年终聚会活动本次活动汇聚了 Apache Cloudberry PPMC 成员、核心贡献者、生态伙伴以及来自一线生产环境的用户代表,围绕项目在 2025 年取得的重要进展、即将发布的 2.1 版本能力,以及面向 3.0 阶段的关键技术方向展开深入交流。

在本次活动的主题分享中,Apache Cloudberry PPMC 成员、酷克数据研发 VP 杨瑜系统回顾了 Cloudberry 作为基于现代 PostgreSQL 内核的开源 MPP 数据库的项目定位,强调其长期面向数据仓库、大规模分析与 AI/ML 场景的发展方向。他重点总结了 Cloudberry 在 2025 年取得的阶段性成果,包括发布首个 Apache 版本 2.0.0、完成源码清理与品牌更新、社区贡献者规模持续扩大,以及在查询处理、存储引擎、安全与资源管理等方面的能力增强。展望 2026 年,杨瑜表示社区将持续推进 PostgreSQL 14 至 16 的内核升级,提高版本发布节奏并进一步优化易用性,同时通过提供 RPM、DEB 与 Docker 镜像降低使用门槛,并加强与 Apache MADlib、Apache AGE、Ray 等生态组件的集成。

在随后的技术分享中,Apache Cloudberry PPMC 成员陈金豹聚焦项目内核从 PostgreSQL 14 升级到 16整个实践过程与核心挑战及解决方案,深入剖析了分布式数据库在对齐 PostgreSQL 16 过程中所面临的复杂性。他介绍了团队在面对大规模代码冲突时选择一次性合并的整体策略,以及当前已完成核心代码合并并进入测试收敛阶段的最新进展。同时,他结合实践经验分享了模块认领、社区协作与增量验证等协作机制,并指出通过降低对上游内核的侵入性,是未来减轻社区升级负担的关键方向。

围绕存储层能力建设,Apache Cloudberry PPMC 成员、酷克数据内核研发工程师胡森系统介绍了核心行列混合存储引擎 PAX 的设计理念与实现路径。PAX 通过行列混合的数据组织方式,在提升缓存效率的同时兼顾多列访问性能,并支持多种压缩与编码策略,以适配不同数据特征。在分享中,胡森重点阐述了 PAX 的分层架构设计、数据管理与过滤机制,以及通过 Cluster 排序优化提升多维查询性能的实践效果,展示了该引擎在分析型负载场景下兼顾性能与存储效率的能力。

在企业级可靠性能力方面,Apache Cloudberry 贡献者、酷克数据内核研发工程师刘晟嵩详细介绍了酷克数据基于 Cloudberry 在灾备与恢复领域的整体方案。他从 PostgreSQL 原生 PITR(时间点恢复)机制出发,结合 WAL-G 工具链,阐述了团队构建的分布式灾备工具 CBDR 如何支持多节点一致性备份、时间点恢复与热备集群,并重点说明了在分布式事务与全局一致性方面的设计思路,展示了基于 Cloudberry 打造保障数据安全与业务连续性方面的工程实践。

来自合作伙伴的一线实践分享同样引发关注。张文川基于真实项目经验,系统复盘了将数百 TB 级数据从 Greenplum 平稳迁移至 Apache Cloudberry 的完整 POC 过程。他重点介绍了迁移工具 cbcopy 在元数据迁移、并行数据复制与策略选择方面的能力,并分享了在有限时间窗口内完成大规模迁移的关键经验与性能数据。

在另一场实践分享中,合作伙伴六边形合伙人陈彰结合多年交付经验,从方法论角度梳理了 Greenplum 向 Apache Cloudberry 迁移的全流程要点。他强调迁移前评估、兼容性测试与演练的重要性,并介绍了 gptool 工具在集群部署与数据传输中的实际价值。同时,他结合真实案例总结了迁移过程中常见的技术细节与风险点,为计划开展类似迁移的团队提供了具有实操价值的参考路径。

在技术分享之外,深圳站 Meetup 也作为 Apache Cloudberry 社区的年终聚会,为社区成员、贡献者与生态伙伴提供了面对面交流的机会。在更加开放、轻松的氛围中,参与者不仅能够与项目核心成员直接探讨技术细节,也围绕社区治理、生态协作与未来演进方向展开了更深入的交流。

回望 2025 年,Apache Cloudberry 在核心功能、版本迭代与社区建设上都迈出了坚实的一步;而面向新的一年,更清晰的版本目标与技术演进也已展开。深圳站 Meetup 既是对过去一年的总结,也是迈向下一阶段的重要节点。Apache Cloudberry 社区将继续与开发者、用户及生态伙伴携手前行,共同推动开源 MPP 数据库在更广泛场景中的落地与发展。

👇🏻️扫码加入 Apache Cloudberry 交流群👇🏻️

【声明】内容源于网络
0
0
ApacheCloudberry
ASF 孵化项目,领先的开源 MPP 数据库,可用作数据仓库,并适用于大规模分析和 AI/ML 工作负载,本账号由 PPMC 成员维护
内容 24
粉丝 0
ApacheCloudberry ASF 孵化项目,领先的开源 MPP 数据库,可用作数据仓库,并适用于大规模分析和 AI/ML 工作负载,本账号由 PPMC 成员维护
总阅读74
粉丝0
内容24