

重塑数据根基： Data+AI 多模态数据湖实战

DataFunSummit

2025-12-04

1. 腾讯云基于 Iceberg 的批流一体实践

2. 治理即服务：腾讯游戏数据治理的AI范式跃迁

3. Apache Gravitino 统一元数据之统一血缘

4. Big AI DATA时代下，小红书数据架构的演进

5. 让数据为 AI 所用：构建企业级 AI 原生多模态数据智能平台

6. 重塑数据根基： Data+AI 多模态数据湖实战

7. 大模型与数据库的交互，从使用数据者到数据管理者

8. 数据科学中的 AI 应用：优化数据处理，提高工作效率与应对未来

文章介绍

《腾讯云基于 Iceberg 的批流一体实践》

本文基于腾讯云在Apache Iceberg项目上的多年实践，重点探讨了构建湖仓一体架构中面临的批流数据统一处理挑战，包括如何高效支持实时更新、删除操作以及优化读写性能。文章核心提出了一套基于TC-Iceberg的扩展方案，通过引入base store与change store的双存储结构，结合merge on read和auto compaction机制来平衡读写放大问题。文中详细分析了自动分桶技术的实现，该技术通过主键哈希分桶将数据合并范围局部化，从而显著提升分布式合并任务的效率。此外，全文还涵盖了具体业务落地案例、智能存储服务架构设计以及未来在秒级延迟支持和物化视图方向的规划，读者可通过参考原文获取完整架构图及社区合作细节。

《Apache Gravitino 统一元数据之统一血缘》

本文探讨了在多云与AI技术快速发展的背景下，企业数据治理面临的数据孤岛、数据源多样化及元数据管理缺失等核心挑战，并提出基于Apache Gravitino构建统一元数据管理与数据血缘追踪的技术方案。文章重点分析了如何通过整合OpenLineage标准化采集框架与Gravitino的统一元数据模型，实现跨异构数据源的血缘关系映射与字段级血缘追溯，其中对Facet扩展机制在血缘事件中的元数据传递作用进行了详细说明。全文还涵盖了统一数据治理架构的设计思路、多引擎血缘采集的具体实现方案及社区未来发展路线，读者可通过文末提供的代码仓库与项目链接进一步了解技术实现细节。

《Big AI DATA时代下，小红书数据架构的演进》

本文分享了小红书在Big AI Data时代下数据架构的演进历程，重点阐述了如何通过采用通用增量计算模式替代原有Lambda架构，以解决高复杂度数据架构下的资源成本、开发效率及数据时效性难题。文章核心介绍了基于Lakehouse的一体化技术路径，通过统一存储（Iceberg）与计算（增量计算引擎）实现流批处理融合，其中详细分析了Z-Order排序与智能索引优化如何将查询扫描数据量降低10倍的关键实现细节。此外，全文还包含具体架构演进阶段对比、性能压测数据（如P90查询延迟优化至5秒）以及增量计算在社区、电商等业务场景的落地效果，读者可通过文末链接获取完整技术文档与实现方案。

《重塑数据根基： Data+AI 多模态数据湖实战》

本文针对企业非结构化数据处理需求激增与大模型时代多模态数据治理的挑战，深入探讨了构建高效数据根基的技术路径。文章系统性地介绍了火山引擎多模态数据湖解决方案，其核心通过 LAS AI 提供开箱即用的数据处理算子、利用 LAS Ray 实现异构计算资源调度、采用 LAS Lance 格式优化多模态数据存储与检索，并借助 ByteHouse 引擎支持混合查询。文中重点剖析了 LAS Lance 存储格式如何通过主键索引与向量索引原生支持，实现高速随机检索以加速模型训练这一关键细节。此外，全文还详述了该架构在模型预训练、精调、企业AI搜索、视频数据挖掘等多个场景下的具体实践方案，为构建面向AI时代的数据基础设施提供了全面的技术参考。

【声明】内容源于网络

DataFunSummit

DataFun社区旗下账号，专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容，定期提供资料合集下载。

内容 454

粉丝 0

DataFunSummit 北京鸿润嘉诚企业管理咨询有限公司 DataFun社区旗下账号，专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容，定期提供资料合集下载。

总阅读9.8k

粉丝0

内容454