大数跨境
0
0

优秀数据采集方案的设计标准

优秀数据采集方案的设计标准 二进制跳动
2025-11-09
1
导读:优秀数据采集方案的设计标准
不知道你会不会碰到类似这样的问题,例如:老板让我开发一个数据中台,那么我到底应该要收集哪些数据呢?或者是:我现在的数据收集方案,是最有效的吗?能够满足未来需求的扩展吗?
课程中,我们将为了满足数据统计、分析、挖掘的需要,搜集和获取各种数据的过程,统一叫做数据采集。
我们首先要讨论:一个好的数据采集方案,应该是什么样的?需要解决什么问题?
数据采集方案的评估标准

1. “大”:注重可扩展性

  • 需适配企业规模、数据规模的增长,应对用户量增加与新系统引入带来的数据增量。
  • 要能兼容数据类型的扩展,从结构化数据延伸至半结构化、非结构化数据(如日志、音视频)。

2. “全”:追求采集全面性

  • 围绕后续数据应用需求,尽可能采集所有有价值的数据。
  • 以互联网产品为例,需全面采集多端(App、网页、小程序等)用户行为,并实现跨端打通建模,且当前存储成本已较低。

3. “细”:保证字段细致准确

  • 采集数据时需完善各相关字段,确保信息精准。
  • 以电商 “添加购物车” 行为为例,需采集商品信息(名称、类别、价格)、用户信息(ID)、设备信息(机器型号、系统版本)等。

4. “时”:满足过程时效性

  • 数据采集与处理的速度需匹配后续应用场景需求。
  • 非实时场景(如日统计报表)可按天采集;实时场景(如个性化 feed 流)则需纯实时的采集与处理流程。
案例:一个大全细时的数据采集方案设计
我们现在要为一个中型电商平台设计数据采集方案,这个电商有 PC 网站、移动 App、微信小程序等多个触点,数据应用上有报表、商品推荐、营销活动、用户画像等多种数据应用需求。

通过分布式客户端 SDK 支撑百万级用户数据采集,且在数据 Schema 上预留扩展空间,可接入抖音小店等新数据源及第三方平台数据,避免采集能力因用户增长或新需求成为瓶颈。

全面采集用户各触点行为(浏览、下单等),通过 ID-Mapping 技术打通跨端用户身份,同时还采集业务表、后台管理日志等业务数据,形成完整数据体系。

采集信息维度丰富,既包含商品详细信息(名称、品牌等),也记录设备环境(操作系统、网络类型等),还涵盖页面上下文(进入来源、停留时长等)。

按场景匹配时效性,商品推荐数据 1 分钟内可用、库存数据实时采集,用户画像与运营报表相关数据则按分钟级或日级采集,均满足对应需求。

如何确定要采集的数据范围?

目前数据采集存在两种核心方法论,核心差异在于是否以明确应用为出发点。

1. 目标导向性方法论

  • 核心逻辑:从具体数据应用反推所需数据的范围、维度和粒度,仅采集与应用直接相关的数据。
  • 优势:资源利用率高,项目落地周期短。
  • 不足:可能遗漏未来新应用所需数据,业务调整时需重新设计方案,且未采集的用户行为等数据无法回溯。

2. 建设导向性方法论

  • 核心逻辑:不依赖明确应用,以 “数据是财富” 为原则,能采尽采、应采尽采。
  • 优势:可满足未来潜在数据应用需求,符合当前数据资源入表趋势。
  • 不足:消耗更多资源,项目周期更长。

可采集的数据一共有哪些类型?

从两个维度对企业需采集的数据进行分类,并明确了各类数据的范畴与采集规范,一是按数据所有者分为私域和公域数据,二是按技术视角(数据产生方式)分为四类数据。

一、按数据所有者划分:私域数据与公域数据

  1. 私域数据(第一方数据)

    • 定义:企业通过自身运营场景直接获取,拥有完全所有权和控制权的数据。
    • 范畴:包括内部系统(CRM、ERP)的客户、交易、物流数据,自有触点(官网、App)的用户行为数据,以及用户在自有平台产生的归属企业的内容数据(文章、评论)。
    • 规范:虽归企业所有,但采集需遵守法律法规。
  2. 公域数据(第三方数据)

    • 定义:归属权不属于企业,需通过合法方式从公共机构、第三方合作伙伴或公开渠道获取的数据。
    • 范畴:涵盖政府公开数据(天气、GDP)、社交媒体公开信息(话题、评论)、电商平台公开数据(商品信息、排行榜),以及第三方服务商售卖的匿名化数据。
    • 规范:采集存在灰色地带,需遵守法律法规、行业公约(如 spider 声明),且不影响第三方。

二、按技术视角(数据产生方式)划分:四类核心数据

  • 用户类数据
    用户在企业所有触点的行为数据,以及用户主动填写的自然属性、兴趣爱好等属性数据。
  • 业务类运行数据
    企业系统(ERP、CRM)运行产生的日志数据,以及数据库中保存的订单表、商品表、物流表等数据。
  • 内容类数据
    企业生产的内容数据,如官网文章、宣传图片、直播视频等。
  • IOT 数据
    硬件传感器产生的数据,来源包括用户终端、企业线下生产销售场所(货架、门店摄像头、生产线)。
  • 第三方接口数据
    通过合法接口获取的第三方数据。

总结:
1. 一个优秀的数据采集方案应该具备“大”“全”“细”“时”四个评估标准,即要充分考虑数据规模的增长、全面采集有价值的数据、采集的数据字段尽可能细致准确、数据采集和处理过程的时效性能够满足后续数据应用的需求。
 2. 数据采集方案设计需要根据具体业务场景和应用需求,在“大”“全”“细”“时”四个维度上找到合适的平衡点。
 3. 数据采集方案的设计需要充分考虑后续数据应用的需求,如实时推荐系统、库存预警系统和用户画像等。
 4. 确定要采集的数据范围时存在两种方法论:目标导向性和建设导向性。
 5. 可采集的数据分为私域数据和公域数据,私域数据是企业自身拥有完全所有权和控制权的数据,而公域数据则归属于公共机构、第三方合作伙伴或公开渠道。
 6. 数据类型包括用户类数据、业务类运行数据、内容类数据、IOT 数据和第三方接口数据,需要根据数据类型采用不同的技术方案。
 7. 数据采集方案的设计对于数据开发工程师、数据产品经理非常重要,同时产品经理、数据分析师也应该深度参与设计一个合理的数据采集方案。

【声明】内容源于网络
0
0
二进制跳动
15 年 + 技术老兵 架构师|技术总监|科技创业技术合伙人 曾任职苏宁科技、电讯盈科、联想云 专注架构设计与技术落地
内容 739
粉丝 0
二进制跳动 15 年 + 技术老兵 架构师|技术总监|科技创业技术合伙人 曾任职苏宁科技、电讯盈科、联想云 专注架构设计与技术落地
总阅读448
粉丝0
内容739