大数跨境
0
0

Big AI Data 时代下,小红书数据架构的演进

Big AI Data 时代下,小红书数据架构的演进 DataFunSummit
2025-11-14
7
导读:导读 小红书 App 是一个月活用户超过 3.5 亿人的生活兴趣社区。
导读 小红书 App 是一个月活用户超过 3.5 亿人的生活兴趣社区。小红书围绕“社区+电商+商业化”为核心,通过 UGC 内容驱动“种草-拔草”的业务闭环,不断提升 APP 用户规模和用户粘性,与此同时,日志规模达到日均几千亿,并由此催生了大量的实时、离线的数据需求。
本文与大家分享在 Big AI Data 时代下,小红书的数据架构的演进,目前基于新一代通用增量计算替换现有 Lambda 架构,实现架构复杂度降低 1/3,资源成本降低到 1/3、开发成本降低到 1/3。并介绍了增量计算的定义与标准。


本文围绕下面内容展开:

1. 小红书数据框架的演进

2. 通用增量计算概述


01

小红书数据框架的演进

在小红书 APP 中,用户可以浏览社区笔记、与朋友进行互动、可以观看直播,也可以在商城购买商品,而这些都是强数据驱动的业务。小红书用户的体量以及其业务复杂度超高,因此对其数据平台对应的数据能力有着比较大的挑战。

1. 小红书业务及数据概览

图片

目前,小红书的整体数据平台是采用业界通用的数仓标准和建模方式来进行维护管理的,包括但不限于自建的调度平台、运维平台、资产管理平台、治理平台、报表平台等一系列产品型工具能力,共同辅助数据资产在企业中发挥更大的价值。

其中,价值输出主要分为四类:

第一类是数据分析。例如支持面向高管的报表、支持一线运营及销售的自助分析产品;

第二类是数据产品。例如小红书面向广告主、商家、博主、内部需求方的数据平台;

第三类是数据服务。例如提供给推荐、搜索、算法团队的用户画像以及特征标签等;

第四类是 AI 相关。例如使用 AI 来帮助用户更轻量地获取数据洞察、生成数据报告和给出经营建议等;

2024 年,小红书的基础设施层从 AWS 迁移至阿里云,迁移数据 500PB,任务 11 万,参与人数 1500 人,涉及部门 40 多个,整体的迁移和改造的复杂度创下了业界记录。截至目前,小红书已有部分业务在自建云上试跑,未来将向混合云架构发展。

2. 数据架构的演进迭代

图片

从小红书的视角来看,让数据在企业内部发挥更大价值的关键是极致的效率。这涉及到一个重要命题:企业的高管和一线人员(包括运营和销售团队)都需要学会使用数据。提高数据的使用渗透率是数据在企业内部发挥更大价值的前提。为此,小红书进行了四次数据架构的迭代,以降低数据的获取成本、提高使用效率、以及降低数据对业务同学的门槛。

1.0 的数据架构是基于 ClickHouse 的即席分析。此时架构相对简单,主要是离线数仓将数据宽表加工后加载到 ClickHouse 中,供运营团队获取数据。与原始数据架构相比,Spark SQL 的响应速度从分钟级提升到了 ClickHouse 的秒级。然而,该架构也存在明显缺点:

  • 成本高。ClickHouse 集群的搭建成本较高(包括资源成本),其对 CPU 和内存的要求较高;

  • 扩容难。因为 ClickHouse 是存算一体的架构,在业务快速扩张时,扩容会面临数据搬迁的问题;

  • 数据时效性差。因为数据是通过 Spark T+1 加工后再导入到 ClickHouse,期间存在数据搬迁的时间成本,这导致业务人员获取数据可能已不具备时效性。

文章节选自《智能湖仓与AI基础设施架构与实践》电子书
识别下方二维码进群即可领取电子书

1. 腾讯云基于 Iceberg 的批流一体实践

2. 治理即服务:腾讯游戏数据治理的AI范式跃迁

3. Apache Gravitino 统一元数据之统一血缘

4. Big AI DATA时代下,小红书数据架构的演进

5. 让数据为 AI 所用:构建企业级 AI 原生多模态数据智能平台

6. 重塑数据根基: Data+AI 多模态数据湖实战

7. 大模型与数据库的交互,从使用数据者到数据管理者

8. 数据科学中的 AI 应用:优化数据处理,提高工作效率与应对未来

【声明】内容源于网络
0
0
DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
内容 454
粉丝 0
认证用户
DataFunSummit 北京鸿润嘉诚企业管理咨询有限公司 DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
总阅读9.9k
粉丝0
内容454