本次 Community Over Code Asia 2025 的 Data Lake & Data Warehouse 专题,将给大家带来 Apache 社区建设和发展的最新资讯和前沿实践,现在就一起来看看吧👀
专题介绍
Community Over Code Asia 2025
数据湖和数据仓库是存储和管理数据的重要解决方案,它们在数据管理、数据分析和决策中发挥着关键作用。 在 ASF,有不少是与数据湖和数据仓库有关的项目,例如: Apache Hive, Apache Hudi, Apache Iceberg, Apache Paimon, Apache Cassandra, Apache HBase 等。 在这个主题中,你将得到数据湖和仓库的最新情况,公司在生产中使用它们的最佳做法,以及这些项目的路线图。
出品人
Community Over Code Asia 2025
代立冬
Community Over Code Asia 2025
白鲸开源 CTO,Apache 孵化器导师,Apache DolphinScheduler PMC member & Apache SeaTunnel PMC member。拥有 16 年数据经验,专注 AI-Ready 多源异构数据集成、数据加工编排与数据治理等领域。基于 Apache SeaTunnel & Apache DolphinScheduler 内核打造商业化产品 - WhaleStudio,已服务覆盖金融、汽车、游戏、制造、零售、互联网等行业客户。
史少锋
Community Over Code Asia 2025
Datastrato VP of engineering, Apache 软件基金会成员,Mentor of Apache Gravitino, Gluten,HoraeDB 等。专注于大数据分析和云计算技术。曾任 eBay 全球分析基础架构部大数据高级工程师,IBM 云计算部门软件架构师等。
胡宗棠
Community Over Code Asia 2025
中国移动云能力中心,中间件和大数据领域技术专家,移动云中间件/大数据团队负责人。8 年以上消息中间件内核开发和架构设计经历,从无到有参与移动云 RocketMQ、MQTT、Kafka 等多款主流消息中间件系列产品的内核架构和研发,作为技术嘉宾,曾多次参与 Apache Conf Aisa 2022/2023/2024 主论坛/分论坛、ApacheRocketMQ Summit/Meetup、云原生服务大会技术分享,开源项目实践经验丰富担任 Apache RocketMQ、Nacos、openEuler message-middleware sig 和 openMessaging 等开源社区的 Maintainer/Committer。信通院 2023 年《云计算开源标准突出贡献专家》,《2024 信通院 OSCAR 尖峰开源人物》,多个开源社区的开源先锋等荣誉。
议程亮点
Community Over Code Asia 2025
📅 7 月 25 日 14:00 - 17:45
演讲议题:Apache Iceberg|高性能数据湖仓的表维护策略
分享时间:7 月 25 日 14:00-14:30
议题介绍:
在本次演讲中,我们将深入探讨 Apache Iceberg,并发现高效维护大规模数据表的实用技术。我们将引导您了解现代数据湖中表维护的核心挑战,并分享优化性能和确保数据完整性的策略。您将学习如何应用最佳实践来管理元数据、处理表压缩以及自动化维护任务,以最大限度地减少停机时间并提高查询性能。
引言:
Apache Iceberg 简介及其在现代数据湖仓架构中的作用。
Iceberg 架构概述及其相对于传统表格式的优势。
关键挑战以及为什么表维护至关重要。
表维护的重要性:
表膨胀、元数据分散和过期快照对性能的影响。
为什么日常维护对运营效率至关重要。
核心维护策略:
元数据管理:清理和优化表元数据的技术。
压缩:合并小文件和清理过时数据的最佳实践。
分区策略:适当的分区如何减少维护开销。
自动化:自动化日常维护任务的工具和脚本。
问答与互动讨论
本次演讲旨在为数据工程师和软件专业人员提供必要的工具和技术,以确保他们的 Apache Iceberg 表的长期健康和性能。加入我们,提升您的数据管理策略,并在数据密集型应用中取得更好的成果。
演讲嘉宾:
Akshat Mathur|Product Manager @ Cloudera
Akshat Mathur 在数据工程这一充满活力的领域拥有超过 7 年的专业经验,曾帮助多家组织设计和实施稳健的数据基础设施,助力它们成功利用数据的力量。目前,他负责管理 Cloudera 数据湖仓的产品战略。Akshat 还为 Apache Hive 和 Tez 项目做出了贡献。
演讲议题:Apache Iceberg 的隐藏超能力|治理、实验与自主未来
分享时间:7 月 25 日 14:30-15:00
议题介绍:大多数关于 Apache Iceberg 的演讲都热衷于谈论时间旅行和 ACID 合规性——这已经不足为奇了。但那些鲜为人知的功能呢?那些能够将混乱转化为秩序、将实验转化为胜利、将静态表格转化为自主驱动力的功能——让你的数据平台能够自我思考?欢迎来到这里,我们将一起探索 Iceberg 的隐藏工具包。
以下是 30 分钟深入探讨的计划:首先用 5 分钟介绍为什么 Iceberg 的隐藏功能比基础知识更耀眼。接着用 6 分钟探讨治理——使用快照实现合规性,利用 REST Catalog 实现动态控制。然后,用 6 分钟介绍分支——使用快照和 Nessie 进行无风险实验。之后,用 5 分钟介绍指标——通过报告和扫描统计来提升速度。再用 6 分钟介绍自主 Iceberg——结合 REST Catalog 和模型上下文协议(MCP),这是一个未来愿景,即 Iceberg 与 AI 代理协同工作。
演讲嘉宾:
Shekhar Prasad Rajak|Passionate Open Source Advocate and Software Engineer at Apple
Shekhar 对开源软件充满热情,并积极参与多个项目,包括 SymPy、Ruby gems(如他编写的 daru 和 daru-view)、Bundler、NumPy 和 SciPy。 他在 2016 年和 2017 年成功完成了 Google 编程之夏(Google Summer of Code)项目,并担任 SciRuby 的管理员,指导了多个组织。 Shekhar 曾在 RubyConf 2018、PyCon 2017、ApacheCon 2020 和 Community Over Code 2024 等知名会议上发表演讲,并在众多地区性聚会上分享过见解。目前,他在苹果公司担任软件开发工程师。
演讲议题:货拉拉生产环境中的 Apache Amoro 与 Iceberg 实践
分享时间:7 月 25 日 15:00-15:30
议题介绍:在货拉拉,我们利用 Apache Amoro 构建了以 Apache Iceberg 为核心的新一代湖仓平台。在管理 PB 级日处理数据量的过程中,我们解决了关键的稳定性挑战,包括:
生产环境稳定性挑战:
生产环境中的小文件压缩与快照过期处理
使用对象存储(如S3、OSS)进行大规模数据迁移
实时监控与告警,针对合并任务和元数据操作
优化表设计,以最小化小文件和压缩开销
架构创新:
针对物流数据定制的 Iceberg 模式与分区策略
预防性文件管理,以减少合并压力
自动化维护,确保长期稳定性
在本次会议中,我们将分享:
在高流量物流平台中扩展 Iceberg 的经验教训
性能与可靠性的关键优化
我们的湖仓之旅——从货拉拉的 PoC 到生产环境
本次演讲将为数据工程师和架构师提供在大型、真实环境中实施 Iceberg 的可操作见解。
演讲嘉宾:
Zheng Yu Chen|Apache Amoro PPMC , HuoLaLa Senior Big Data Dev
Zheng Yu Chen(ConradJam),Apache Flink 中文社区志愿者,Apache Amoro 项目管理委员会成员(PPMC),长期从事大数据数据开发工作。目前,他负责从 0 到 1 设计并构建 Flink 公有云多云数据解决方案、数据同步和大数据运维流水线平台。
演讲议题:Apache Gravitino|数据与 AI 的通用目录
分享时间:7 月 25 日 15:45-16:15
议题介绍:欢迎参加关于 Gravitino 的演讲!管理元数据可能既复杂又耗时,但 Gravitino 提供了终极解决方案。它通过支持地理分布式架构,为多区域数据提供了单一事实来源。这使得您可以将数据存储和管理在一个地方,并从全球任何地方访问。借助统一的数据和 AI 资产管理,您可以获得集中的安全性和数据访问管理,从而简化数据保护工作。Gravitino 通过简化任务并提供以下优势,帮助您更加专注于数据:
安全且集中的元数据存储和管理
随时随地访问数据
通过易于使用的用户界面简化数据管理
Gravitino 是简化元数据管理流程的理想解决方案。它是开源且免费的,因此,立即尝试 Gravitino,体验其带来的好处吧!
演讲嘉宾:
Justin Mclean|Open Source Community Manager, ASF Board Member
Justin Mclean 是一位拥有超过30年经验的资深专业人士,长期从事网页应用开发、教育培训及社区建设工作,并积极参与开源软件的贡献。作为一位享誉全球的会议演讲者,Justin 目前担任 Datastrato 的社区经理。他还担任 Apache 软件基金会(ASF)孵化器副总裁、ASF 董事会成员,并指导多个基金会项目。
演讲议题:Apache Hudi 实战|加速快手数据仓库架构升级
分享时间:7 月 25 日 16:15-16:45
议题介绍:Apache Hudi 是一种强大的表格式,提供丰富的能力,涵盖离线和实时场景。在快手推进数据仓库架构升级的过程中,Hudi 的数据湖能力在实时数据入湖、部分更新、大宽表等场景下,提升了时效性、降低了成本、提升了开发效率。
本主题分为三个部分:
1. Apache Hudi 在快手的应用场景与挑战:
分享快手基于 Hudi 的业务场景以及规模化实施过程中遇到的挑战。
2. Apache Hudi 在快手的深度优化与优势:
介绍针对这些挑战的技术方案,包括原生引擎优化的记录格式、灵活的分桶索引能力、以及强大的非阻塞并发控制。 并通过实际案例展示 Hudi 在时效性、性能、成本效率、易用性和系统稳定性方面的提升。
3. 未来展望:
讨论快手将数据湖功能与 BI(商业智能)和 AI(人工智能)计划相结合以推动进一步创新的路线图。
演讲嘉宾:
Chaoyang Liu|Core Hudi R&D Engineer at Kuaishou
快手核心Hudi工程师,Apache Hudi活跃贡献者,Apache RocketMQCommitter
演讲议题:使用 Tantivy 在 Iceberg 上构建倒排索引|实践方法
分享时间:7 月 25 日 16:45-17:15
议题介绍:在大数据场景中,高效的数据检索是许多业务应用的核心需求。 作为全文搜索和复杂查询的基石,倒排索引可以显著提升查询性能,尤其在需要模糊匹配的日志分析场景中表现优异。与传统解决方案相比,利用 Lakehouse 表格式的存储可扩展性和计算存储分离优势,可以有效降低索引存储成本。然而,在数据湖架构中使用现代表格式(如 Apache Iceberg)实现可扩展、低维护的倒排索引仍然存在诸多挑战,包括索引与数据的实时同步、分布式环境下的一致性保证以及查询优化问题。
本次演讲将分享基于 Apache Iceberg 和 Tantivy 构建可靠倒排索引系统的实践经验,涵盖以下关键实现:
1. Iceberg 与倒排索引的兼容性分析,探讨 Iceberg 的 ACID 属性和元数据管理功能如何支持索引的原子更新和版本控制。
2.使用 Tantivy 构建倒排索引的挑战,分享与 Rust 进行数据交互的实用方法,并通过修剪不必要的文件来优化存储。
3. 与 Trino 查询引擎的集成实践,演示如何有效地将解决方案与 Trino 集成以增强查询性能。
演讲嘉宾:
Longfei Liu|Senior Software Engineer at 360 (Qihoo 360)
360(奇虎 360)高级软件工程师,十年大数据基础设施开发实践经验,在分布式存储系统和查询性能优化方面拥有深厚的专业知识。
演讲议题:基于 Arm64 架构,使用 Gluten 和 Velox 引擎加速 Spark 查询
分享时间:7 月 25 日 17:15-17:45
议题介绍:Apache Spark SQL 提供了一个强大的解决方案,使用户能够高效地处理海量数据集。最近,Project Gluten 作为基于 Apache Arrow 的原生 SQL 引擎被引入,旨在增强 Spark SQL 的功能。与此同时,几个拥有活跃开源社区的向量化 SQL 引擎也受到了广泛关注。其中,由 Meta 领导的 Velox 项目脱颖而出,成为了一个有前途的向量化数据库加速库。
Gluten-Velox 的集成代表了向前迈出的重要一步,为 Arm 平台量身定制了一个优化的 Spark SQL 加速器。通过利用 Gluten-Velox,Spark SQL 克服了其传统基于行的数据处理和在 Arm64 架构上的 JVM 限制。这是通过 Arm64 SIMD 能力的垂直组合性和先进的向量化执行技术实现的。
在本次演讲中,我们将简要介绍原生引擎 Gluten 和 Velox,并探讨在 Arm64 上启用 Gluten 和 Velox 的情况,展示在 Arm Neoverse N2 平台上通过这种方法实现的潜在性能提升的实验结果。此外,我们还将讨论一个针对 Arm64 上 Velox 的优化案例,展示进一步增强性能的策略。
演讲嘉宾:
Yuqi Gu|Apache Bigtop and Ambari PMC member
任职于安谋科技(Arm China),与 Arm 基础设施业务线(Infra LoB)紧密合作。该职位涉及推动 ARM 基础设施产品(服务器和网络)从初步评估到最终部署的全过程;Apache Bigtop 项目管理委员会(PMC)成员,Apache Bigtop 前任主席(2021~2023);Apache Ambari 项目管理委员会(PMC)成员,Committer。
📅 7 月 26 日 14:00 - 17:45
演讲议题:Apache Polaris(Incubating) 和 Apache XTable:统一 Iceberg、Hudi 和其他表格式
分享时间:7 月 26 日 14:00-14:30
议题介绍:Apache Polaris(Incubating) 实现了 Apache Iceberg REST 目录规范,并允许用户管理 Iceberg 表、视图和其他相关元数据。基于角色的访问控制控制哪些用户可以访问哪些数据,Polaris 支持将策略附加到表,以便对数据进行分类并配置表维护。
与 Apache XTable 的新集成有望将相同的功能扩展到非 Iceberg 表。Polaris 最近推出了“通用表”——允许用户在 Polaris 中管理他们的 Apache Hudi 表以及由 Apache Kafka 或其他系统支持的表。借助 XTable,客户现在可以连接到 Polaris 并读取最初用 Iceberg 编写的数据,就像它是用 Hudi 编写的一样,而无需考虑表格式。
本次演讲将概述 Polaris 中新的通用表和转换功能,如何配置 XTable 以增强转换,并简要回顾集成的设计和实现。
演讲嘉宾:
Eric Maynard|Data Interoperability @ Snowflake
Eric Maynard 是 Snowflake 的一名工程师,致力于 Apache Iceberg、Apache Polaris(孵化)以及格式之间(元)数据的转换。
演讲议题:Impala 在 Iceberg 上与 Puffins
分享时间:7 月 26 日 14:30-15:00
议题介绍:Apache Iceberg 表格式已成为大数据领域的事实标准。与基于传统文件系统的表格式相比,它拥有诸多优势,例如行级修改、事务、分区转换和时间旅行,使其成为许多项目自然而然的首选。数据统计信息可以极大地帮助数据库引擎创建高效的查询计划。作为领先的表格式,Iceberg 旨在提供一种标准化的方式来存储这些统计信息:除了核心规范中已有的文件级属性(例如最小值和最大值)之外,它还引入了 Puffin 文件格式来存储整个表的统计信息。通过使用 Puffin 格式,各种数据库引擎可以共享统计信息,而无需每个引擎都计算和存储自己的版本,从而使多引擎工作流程更简单、更高效。
本次演讲将向您展示我们如何在 Apache Impala(一个开源、分布式、大规模并行数据库引擎)中引入对 Puffin 统计信息的支持。我们将介绍实现的所有阶段,从仅读取为最新快照计算的统计数据,到优化读取性能,再到考虑较旧快照中缺失的统计数据(较新的快照中缺失)。我们将讨论一个特别有趣的点,即当统计数据来自多个来源时,如何选择最相关的统计数据:这些来源包括 Puffin 文件和 Impala 的传统统计数据来源 Hive Metastore。
演讲嘉宾:
Daniel Becker|Senior Software Engineer
Daniel Becker 于 2019 年开始在 Cloudera 从事 Apache Impala 工作。他为 Impala 做出的贡献涵盖多个主题,包括 LLVM 代码生成、复杂类型、Parquet 和 Iceberg。他是 Apache Impala PMC 成员,拥有帕兹马尼彼得天主教大学的学位。
演讲议题:在实践中构建实时数据湖
分享时间:7 月 26 日 15:00-15:30
议题介绍:在实时驱动业务决策的时代,高吞吐量数据湖仓库的架构设计已成为企业数字化转型的决战战场。面对传统批处理架构难以逾越的时效性瓶颈,我们基于 Flink CDC 3.0 + Apache Iceberg + Apache Amoro 构建了流式数据湖仓库系统,成功实现了单客户日均数百亿数据流的分钟级就绪和查询性能跨越。
本次分享将介绍三方面的实践经验: 基于 Flink CDC3.0,多业务表异构数据秒级入库,解决了历史数据漂移与增量同步的精准对接难题; Iceberg 性能调优设计,复杂查询性能相比 Hive 提升 400%; Apache Amoro 自优化框架的创新应用,在高效合并小文件和清洗数据的同时,提供高效的读取性能。
该系统已在电信运营商的生产实践中落地,支撑每日 PB 级数据处理的业务峰值,可为参与者提供可无缝迁移的实时湖仓架构范式。
演讲嘉宾:
Congxian Qiu|Apache Flink Committer, Apache(incubating) Amoro PMC member, Associate Director at StateCloud
拥有多年大数据基础设施研发经验。目前领导天翼云基于 Apache Iceberg 的数据湖架构开发和实现, 他是 Apache Flink Committer 和 Apache(incubating)Amoro PMC 成员。
Zhuojun Jiang|Senior Big Data Engineer @ State Cloud
天翼云高级大数据工程师,致力于大数据湖仓架构研发。她正在专注于基于Apache FlinkCDC、Iceberg 和 Amoro 等组件搭建的数据湖仓,深入数据同步、性能优化等技术领域,并积极参与开源社区贡献。
演讲议题:使用 Apache Cloudberry 构建统一的 Lakehouse 解决方案
分享时间:7 月 26 日 15:45-16:15
议题介绍:
数据仓库擅长快速分析,而数据湖则注重可扩展存储和灵活的数据管理。Lakehouse 架构旨在将两者的优势结合起来——无缝集成跨数据湖和数据仓库的数据,以实现高效分析和统一治理。
作为下一代开源 MPP 数据库,Apache Cloudberry 扩展了其技术边界,构建了开放式 Lakehouse 解决方案。 本次演讲将介绍 Cloudberry 在实现统一 Lakehouse 架构方面的关键功能:
1. 加速 Parquet/ORC 格式的 Lake 查询,无需数据移动
2. 统一数据网关,用于跨异构数据源的查询和写入
3. 集成数据处理和同步管道,实现从数据采集到分析的端到端流程
4. 开放元数据和存储格式,简化生态系统集成并降低迁移成本
演讲嘉宾:
Rose Duan|Apache Cloudberry Database Developer
Apache Cloudberry 贡献者,HashData 的数据库内核开发人员。
演讲议题:使用 Apache Iceberg 增强 Lakehouse 实施
分享时间:7 月 26 日 16:15-16:45
议题介绍:现代数据湖架构融合了数据湖和数据仓库的优势,通过 ACID 事务、模式演进和性能优化实现可扩展分析。Apache Iceberg 已成为领先的开放表格式,通过提供可靠性、可扩展性以及与 Spark、Flink、Doris、StarRocks、Impala、Hive、Nifi、Kafka 和 Trino 等热门开源计算引擎的无缝集成,为数据湖实现提供强大的支持。
在本次会议中,我们将探讨 Apache Iceberg 如何通过确保数据可靠性、优化性能、实现多引擎兼容性和简化维护来增强数据湖架构。此外,我们还将讨论实际用例、将 Hive 表迁移到 Iceberg 表的最佳实践,以及如何利用其特性构建高性能、面向未来的数据湖。
演讲嘉宾:
Bill Zhang|Cloudera, Lakehouse , Iceberg Integration
Bill 是 Cloudera 的产品战略副总裁,负责 Open Data Lakehouse 产品战略以及 Apache Iceberg 与所有 Cloudera 数据平台 (CDP) 的集成。最近,Bill 还负责 Apache Hive 的产品路线图和应用。
演讲议题:优化 Parquet 存储|元数据管理、性能调优和无缝迁移
分享时间:7 月 26 日 16:45-17:15
议题介绍:
本次会议将深入探讨优化 Parquet 存储生态系统的高级技术。我们将探索一种全面的元数据管理方法——从高效的收集和存储到构建可扩展的元数据仓库。与会者将学习实用的存储优化策略,包括 ZSTD 压缩升级、本地/全局排序以及用于提升性能的列级调优。此外,我们还将介绍如何通过就地回溯和异构格式互操作性无缝迁移旧格式。无论您是处理大规模数据集还是优化存储效率,本次会议都能提供切实可行的见解,帮助您提升 Parquet 工作流程。
关键要点:
1. 元数据生命周期管理(捕获、存储和利用)的最佳实践。
2. 使

