数据集(三)
菲利信研究院
数据采集是从不同数据源收集、获取原始数据的过程,是数据分析、挖掘和应用的基础,也是数据集建设的根基所在。
根据数据来源、技术手段和应用场景的不同,数据采集有多种类型,以下是常见的数据采集方式及其核心特点:
基于物理世界的感知采集:传感器与物联网
通过物理传感器或物联网设备直接采集现实世界中的环境、设备、物体状态的数据,适用于从工业、农业、环境、空间等场景中获取一手、适时、动态的数据。
涉及的核心技术:传感器(如温度、湿度、压力、加速度、图像、声音传感器)、物联网(IoT)设备、RFID(射频识别)、GPS/北斗定位等。
应用场景包括很多现实空间:工业领域的设备运行状态(振动、温度)、生产线良品率监控等;农业领域的土壤墒情、作物生长环境、气象数据等;环境监测领域的空气质量(PM2.5、CO₂)、水质参数(pH 值、溶解氧)等;生活领域C端的智能手表的心率、步数、智能家居的设备状态等。
其特点是:实时性强,可直接获取物理世界的动态数据;但必须依赖硬件部署,需考虑设备投入、维护的成本和数据传输的稳定性。
互联网公开数据采集:网络爬虫
使用爬虫工具(如 Python 的 Scrapy 框架)自动抓取互联网公开页面或接口的数据。适用于无 API 接口、但数据公开的场景,用于市场调研、竞品分析、舆情监控等。
核心技术包括:HTTP 请求(GET/POST)、HTML 解析(如 BeautifulSoup、XPath)、反爬对抗(模拟浏览器、代理 IP、验证码识别)、分布式爬虫(Scrapy、PySpider)。
应用场景至少有:电商领域的商品价格、评论、销量数据;舆情方面的社交媒体、新闻网站的用户观点;学术研究的论文数据库、开放数据平台的公开研究数据。
其特点:遵守目标网站的 robots.txt 协议,避免过度请求影响服务器;部分数据涉及隐私或版权,需确保合法性(如 GDPR、《网络安全法》)。
系统与设备日志采集
从服务器、数据库、应用程序、网络设备中收集运行过程中生成的日志文件,包含系统报错、访问记录、资源消耗等信息,用于监控、故障排查或用户行为分析。
核心技术大致有:日志收集工具(如 Flink、Logstash、Filebeat)、日志协议(Syslog、HTTP)、集中式日志平台(ELK Stack:Elasticsearch+Logstash+Kibana)。
应用场景包括:互联网服务的服务器访问日志(用户 IP、请求路径)、应用错误日志;运维监控的网络设备的流量、连接状态日志;安全审计领域的记录用户操作行为(如登录、数据修改)。
特点:数据真实性高,反映系统真实运行状态;但日志格式多样(文本、JSON、二进制),需清洗和标准化处理。
数据库与业务系统直接抽取
从组织内部的已有数据库或业务系统中直接提取数据,通常用于内部数据整合或数据分析。
涉及到的核心技术有:在结构化数据方面——通过 SQL 查询(如 MySQL 的SELECT、Oracle 的 PL/SQL)或 ETL 工具(Apache NiFi、Talend)抽取;在非结构化数据领域——从文档管理系统(如 SharePoint)、文件存储(如 HDFS、AWS S3)中读取。
应用场景包括:企业数据仓库(DW)构建——从企业内部运营系统中直接导出数据,如 CRM(客户关系管理系统)的客户信息、ERP(企业资源计划系统)的生产与财务数据、SCM(供应链管理系统)的物流数据等,并整合 ERP、CRM、OA 系统的客户、订单、交易数据;数据备份与迁移——从旧系统抽取数据到新平台。
特点有:数据质量高(已结构化),可直接对接分析工具;但需权限控制(避免敏感数据泄露),依赖数据库开放接口。
用户主动提交:人工输入与交互采集
用户通过需求而主动提供的数据,适用于需要主观信息或个性化数据的场景。
常见形式诸如,表单填写——注册信息、问卷调研(如 Google Forms、腾讯问卷);文件上传——用户上传图片、文档(如医疗影像、设计图纸);交互行为——语音输入(如 Siri、微信语音)、手写输入(如平板签名)。
特点:数据直接反映用户意图,灵活性高;但依赖用户的高度配合,可能存在数据缺失或填写错误等主观数据。
埋点与客户端行为采集
在应用(Web、App、小程序)中嵌入代码(如埋点),自动记录用户行为轨迹、操作数据,包括点击路径、停留时间、功能使用频率、页面跳转等,以用于产品优化或精准营销。
有三种类型:前端埋点——记录页面访问(PV/UV)、点击(按钮、链接)、滚动深度(如 Google Analytics、神策分析);后端埋点——记录接口调用、交易流程(如支付成功率、接口响应时间);全埋点——自动采集所有用户行为(无需手动标记,适合快速初始化)。
应用场景:比如说,产品设计中的分析用户转化漏斗(如注册→下单流失点);精准营销领域的根据用户浏览行为推送个性化的广告。
特点:细粒度捕捉用户行为,支持数据驱动决策;但埋点设计复杂(需定义事件、参数),过量采集可能影响性能。
API 接口采集
通过调用第三方平台开放的 API 接口或内部 API(应用程序编程接口)获取标准化数据,适用于需要实时或结构化数据的场景。如调用电商平台 API 获取商品价格、调用社交平台 API 获取用户动态、调用天气 API 获取气象数据,需遵守接口使用规范和权限要求。
常见类型:不外乎开放 API:如天气、地图、金融等方面的数据;内部 API:企业微系统之间的数据接口(如通过 RESTful API 或 gRPC 传输)。
应用场景很多,比如说金融科技的获取股票行情、汇率数据;物流系统的调用快递公司 API 获取包裹状态。
特点:数据格式规范(JSON/XML),获取效率高;但高度依赖第三方服务的稳定性,且可能需要订阅、定制化的费用(如付费 API 调用次数限制)。
边缘计算与实时流采集
在靠近数据源的边缘节点(如设备、网关)实时处理和采集数据,减少延迟,适用于实时性要求高的场景。
核心技术:大体有边缘计算框架(如华为 EdgeX Foundry、阿里云 Link Edge)、流处理引擎(Apache Kafka、Flink)。
应用场景诸如,智能制造领域的产线传感器的毫秒级数据采集与异常检测;自动驾驶领域的车载摄像头、雷达的实时环境数据处理。
特点:低延迟,减少网络带宽压力;但边缘节点计算能力有限,需平衡本地处理与云端存储之间的协同。
调研与访谈采集
通过设计问卷、开展用户访谈、组织焦点小组等方式,主动收集一手数据。
涉及到的技术包括:问卷星(线上发放)、Nvivo(访谈数据整理)、SPSS(数据统计)等。
应用常见于获取用户需求、态度偏好、市场反馈等主观信息等场景。
特点就是便捷、有针对性;却缺少动态更新、实时对齐。
往期推荐

