1. “大”:注重可扩展性
-
需适配企业规模、数据规模的增长,应对用户量增加与新系统引入带来的数据增量。 -
要能兼容数据类型的扩展,从结构化数据延伸至半结构化、非结构化数据(如日志、音视频)。
2. “全”:追求采集全面性
-
围绕后续数据应用需求,尽可能采集所有有价值的数据。 -
以互联网产品为例,需全面采集多端(App、网页、小程序等)用户行为,并实现跨端打通建模,且当前存储成本已较低。
3. “细”:保证字段细致准确
-
采集数据时需完善各相关字段,确保信息精准。 -
以电商 “添加购物车” 行为为例,需采集商品信息(名称、类别、价格)、用户信息(ID)、设备信息(机器型号、系统版本)等。
4. “时”:满足过程时效性
-
数据采集与处理的速度需匹配后续应用场景需求。 -
非实时场景(如日统计报表)可按天采集;实时场景(如个性化 feed 流)则需纯实时的采集与处理流程。
大
通过分布式客户端 SDK 支撑百万级用户数据采集,且在数据 Schema 上预留扩展空间,可接入抖音小店等新数据源及第三方平台数据,避免采集能力因用户增长或新需求成为瓶颈。
全
全面采集用户各触点行为(浏览、下单等),通过 ID-Mapping 技术打通跨端用户身份,同时还采集业务表、后台管理日志等业务数据,形成完整数据体系。
细
采集信息维度丰富,既包含商品详细信息(名称、品牌等),也记录设备环境(操作系统、网络类型等),还涵盖页面上下文(进入来源、停留时长等)。
时
按场景匹配时效性,商品推荐数据 1 分钟内可用、库存数据实时采集,用户画像与运营报表相关数据则按分钟级或日级采集,均满足对应需求。
目前数据采集存在两种核心方法论,核心差异在于是否以明确应用为出发点。
1. 目标导向性方法论
-
核心逻辑:从具体数据应用反推所需数据的范围、维度和粒度,仅采集与应用直接相关的数据。 -
优势:资源利用率高,项目落地周期短。 -
不足:可能遗漏未来新应用所需数据,业务调整时需重新设计方案,且未采集的用户行为等数据无法回溯。
2. 建设导向性方法论
-
核心逻辑:不依赖明确应用,以 “数据是财富” 为原则,能采尽采、应采尽采。 -
优势:可满足未来潜在数据应用需求,符合当前数据资源入表趋势。 -
不足:消耗更多资源,项目周期更长。
从两个维度对企业需采集的数据进行分类,并明确了各类数据的范畴与采集规范,一是按数据所有者分为私域和公域数据,二是按技术视角(数据产生方式)分为四类数据。
一、按数据所有者划分:私域数据与公域数据
私域数据(第一方数据)
-
定义:企业通过自身运营场景直接获取,拥有完全所有权和控制权的数据。 -
范畴:包括内部系统(CRM、ERP)的客户、交易、物流数据,自有触点(官网、App)的用户行为数据,以及用户在自有平台产生的归属企业的内容数据(文章、评论)。 -
规范:虽归企业所有,但采集需遵守法律法规。 公域数据(第三方数据)
-
定义:归属权不属于企业,需通过合法方式从公共机构、第三方合作伙伴或公开渠道获取的数据。 -
范畴:涵盖政府公开数据(天气、GDP)、社交媒体公开信息(话题、评论)、电商平台公开数据(商品信息、排行榜),以及第三方服务商售卖的匿名化数据。 -
规范:采集存在灰色地带,需遵守法律法规、行业公约(如 spider 声明),且不影响第三方。
二、按技术视角(数据产生方式)划分:四类核心数据
- 用户类数据
用户在企业所有触点的行为数据,以及用户主动填写的自然属性、兴趣爱好等属性数据。 - 业务类运行数据
企业系统(ERP、CRM)运行产生的日志数据,以及数据库中保存的订单表、商品表、物流表等数据。 - 内容类数据
企业生产的内容数据,如官网文章、宣传图片、直播视频等。 - IOT 数据
硬件传感器产生的数据,来源包括用户终端、企业线下生产销售场所(货架、门店摄像头、生产线)。 - 第三方接口数据
通过合法接口获取的第三方数据。

