大数跨境
0
0

抖音集团数据血缘深度应用:架构、指标与优化实践

抖音集团数据血缘深度应用:架构、指标与优化实践 DataFunSummit
2025-10-31
3

导读 本文简单介绍了“抖音集团数据资产管理平台”全貌,数据资产管理平台是抖音集团在复杂业务场景中思考的新方向,启发大家对于元数据以及数据资的全新思考。文章重点展开介绍了“抖音集团大数据血缘的演进和应用”部分,让大家以更宏观视角认识血缘,并在如何建设好数据血缘给出建设性的思路

首先整体介绍下抖音集团的一站式数据资产门户平台。在大数据领域,各大公司通常会开展元数据采集以及数据地图的建设工作,行业内的普遍认知聚焦于“元数据”。而在抖音集团,我们的认知核心在于“数据资产”。其核心点在于,我们发现若要真正服务好用户,单纯依靠原始元数据,难以满足更精准化的找数需求。因此,我们经过全方位的思考,构建了更具系统化的“管、找、用”数据资产平台。以下为抖音集团数据资产管理平台。
我们的资产平台支持丰富的数据源类型,借助于强大的元数据采集能力,将所有数据源元数据采集至元数据中心,形成统一元数据湖,其中就包括全链路血缘。基于采集后的原始元数据,数据 BP 会通过资产管理进行二次上下架、分级分类等管理操作,平台会借助主动元数据手段(Gartner 提出)等,持丰富资产元数据。我们会建立资产评估体系评估资产的完善度,牵引资产不断做好。在消费场景上,我们基于数据资产元数据构建搜索、门户以及推荐等产品化能力,同时结合大模型构建AI搜索,通过多样化产品矩阵满足数据资产元数据消费需求。以上是数据资产平台整体简单介绍

本次分享将聚焦于资产体系中的全链路血缘,文章将围绕下面四点展开:

1. 抖音集团血缘整体介绍

2. 抖音集团血缘系统架构

3. 抖音集团血缘应用场景

4. 未来展望

分享嘉宾|刘浩阳 字节跳动 大数据研发专家

编辑整理|吃货小八

内容校对|李瑶

出品社区|DataFun


01

抖音集团血缘整体介绍

1. 整体概览

在抖音集团内,对于数据血缘建设的目标是:构建全覆盖、实时、准确的大数据血缘,基于血缘数据打造全场景血缘应用赋能提效。这里我们的认知是:数据血缘是元数据的核心基础能力,如果想致力于打造更高效的数据平台,可提高对于数据血缘的建设重视程度

2. 建设背景

血缘,即元数据实体之间的关系,也可以简单理解为大数据任务 ETL 的结构化信息。抖音集团内部数据血缘建设背景,可以分为四个方面
  • 看链路:整个大数据是一个超大的数据链路,集团内有百万级别的任务,需要结合血缘看清楚这些业务之间的关系。
  • 保质量:生产任务每天都在线上迭代,每天有万级别的线上任务变更,该如何评估好这些迭代对线上是否会产生影响,需要结合血缘链路去评估,以保障整个生产的质量。
  • 保安全:安全是企业数据数据的生命线,如何高效发现企业中的敏感数据,需要依赖血缘数据传播能力。
  • 降成本:超大规模集群规模背后是大量的计算、存储资源,如何合理利用资源,并精准发现低价值资源,并驱动治理,也需要依赖血缘实现。
因此,建设好大数据血缘对我们来说迫在眉睫。
文章选自:《一本朴实无华的大数据电子书》第一篇
扫码入群下载电子书,阅读全文
图片

01

资料目录及介绍

  • 抖音集团如何巧用“数仓”降本 

  • 抖音集团数据血缘深度应用:架构、指标与优化实践

  • 快手电商数据指标体系建设与实践 

  • Blaze:快手自研 Spark 向量化引擎从生产实践到社区开源 

  • NoETL,开启自动化数据管理新时代

  • 快手大数据安全治理实践 

  • 知乎大数据如何降本增效? 

  • 蚂蚁集团 EB 级大数据治理架构与实践

图片

02

识别二维码获取电子书

【声明】内容源于网络
0
0
DataFunSummit
DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
内容 454
粉丝 0
认证用户
DataFunSummit 北京鸿润嘉诚企业管理咨询有限公司 DataFun社区旗下账号,专注于分享大数据、人工智能领域行业峰会信息和嘉宾演讲内容,定期提供资料合集下载。
总阅读9.9k
粉丝0
内容454