一文读懂「数据集」(三)：请收好这份指南- 大数跨境

首页

一文读懂「数据集」(三)：请收好这份指南

菲利信科技

2025-11-18

数据集（三）

菲利信研究院

数据采集是从不同数据源收集、获取原始数据的过程，是数据分析、挖掘和应用的基础，也是数据集建设的根基所在。

根据数据来源、技术手段和应用场景的不同，数据采集有多种类型，以下是常见的数据采集方式及其核心特点：

基于物理世界的感知采集：传感器与物联网

通过物理传感器或物联网设备直接采集现实世界中的环境、设备、物体状态的数据，适用于从工业、农业、环境、空间等场景中获取一手、适时、动态的数据。

涉及的核心技术：传感器（如温度、湿度、压力、加速度、图像、声音传感器）、物联网（IoT）设备、RFID（射频识别）、GPS/北斗定位等。

应用场景包括很多现实空间：工业领域的设备运行状态（振动、温度）、生产线良品率监控等；农业领域的土壤墒情、作物生长环境、气象数据等；环境监测领域的空气质量（PM2.5、CO₂）、水质参数（pH 值、溶解氧）等；生活领域C端的智能手表的心率、步数、智能家居的设备状态等。

其特点是：实时性强，可直接获取物理世界的动态数据；但必须依赖硬件部署，需考虑设备投入、维护的成本和数据传输的稳定性。

互联网公开数据采集：网络爬虫

使用爬虫工具（如 Python 的 Scrapy 框架）自动抓取互联网公开页面或接口的数据。适用于无 API 接口、但数据公开的场景，用于市场调研、竞品分析、舆情监控等。

核心技术包括：HTTP 请求（GET/POST）、HTML 解析（如 BeautifulSoup、XPath）、反爬对抗（模拟浏览器、代理 IP、验证码识别）、分布式爬虫（Scrapy、PySpider）。

应用场景至少有：电商领域的商品价格、评论、销量数据；舆情方面的社交媒体、新闻网站的用户观点；学术研究的论文数据库、开放数据平台的公开研究数据。

其特点：遵守目标网站的 robots.txt 协议，避免过度请求影响服务器；部分数据涉及隐私或版权，需确保合法性（如 GDPR、《网络安全法》）。

系统与设备日志采集

从服务器、数据库、应用程序、网络设备中收集运行过程中生成的日志文件，包含系统报错、访问记录、资源消耗等信息，用于监控、故障排查或用户行为分析。

核心技术大致有：日志收集工具（如 Flink、Logstash、Filebeat）、日志协议（Syslog、HTTP）、集中式日志平台（ELK Stack：Elasticsearch+Logstash+Kibana）。

应用场景包括：互联网服务的服务器访问日志（用户 IP、请求路径）、应用错误日志；运维监控的网络设备的流量、连接状态日志；安全审计领域的记录用户操作行为（如登录、数据修改）。

特点：数据真实性高，反映系统真实运行状态；但日志格式多样（文本、JSON、二进制），需清洗和标准化处理。

数据库与业务系统直接抽取

从组织内部的已有数据库或业务系统中直接提取数据，通常用于内部数据整合或数据分析。

涉及到的核心技术有：在结构化数据方面——通过 SQL 查询（如 MySQL 的SELECT、Oracle 的 PL/SQL）或 ETL 工具（Apache NiFi、Talend）抽取；在非结构化数据领域——从文档管理系统（如 SharePoint）、文件存储（如 HDFS、AWS S3）中读取。

应用场景包括：企业数据仓库（DW）构建——从企业内部运营系统中直接导出数据，如 CRM（客户关系管理系统）的客户信息、ERP（企业资源计划系统）的生产与财务数据、SCM（供应链管理系统）的物流数据等，并整合 ERP、CRM、OA 系统的客户、订单、交易数据；数据备份与迁移——从旧系统抽取数据到新平台。

特点有：数据质量高（已结构化），可直接对接分析工具；但需权限控制（避免敏感数据泄露），依赖数据库开放接口。

用户主动提交：人工输入与交互采集

用户通过需求而主动提供的数据，适用于需要主观信息或个性化数据的场景。

常见形式诸如，表单填写——注册信息、问卷调研（如 Google Forms、腾讯问卷）；文件上传——用户上传图片、文档（如医疗影像、设计图纸）；交互行为——语音输入（如 Siri、微信语音）、手写输入（如平板签名）。

特点：数据直接反映用户意图，灵活性高；但依赖用户的高度配合，可能存在数据缺失或填写错误等主观数据。

埋点与客户端行为采集

在应用（Web、App、小程序）中嵌入代码（如埋点），自动记录用户行为轨迹、操作数据，包括点击路径、停留时间、功能使用频率、页面跳转等，以用于产品优化或精准营销。

有三种类型：前端埋点——记录页面访问（PV/UV）、点击（按钮、链接）、滚动深度（如 Google Analytics、神策分析）；后端埋点——记录接口调用、交易流程（如支付成功率、接口响应时间）；全埋点——自动采集所有用户行为（无需手动标记，适合快速初始化）。

应用场景：比如说，产品设计中的分析用户转化漏斗（如注册→下单流失点）；精准营销领域的根据用户浏览行为推送个性化的广告。

特点：细粒度捕捉用户行为，支持数据驱动决策；但埋点设计复杂（需定义事件、参数），过量采集可能影响性能。

API 接口采集

通过调用第三方平台开放的 API 接口或内部 API（应用程序编程接口）获取标准化数据，适用于需要实时或结构化数据的场景。如调用电商平台 API 获取商品价格、调用社交平台 API 获取用户动态、调用天气 API 获取气象数据，需遵守接口使用规范和权限要求。

常见类型：不外乎开放 API：如天气、地图、金融等方面的数据；内部 API：企业微系统之间的数据接口（如通过 RESTful API 或 gRPC 传输）。

应用场景很多，比如说金融科技的获取股票行情、汇率数据；物流系统的调用快递公司 API 获取包裹状态。

特点：数据格式规范（JSON/XML），获取效率高；但高度依赖第三方服务的稳定性，且可能需要订阅、定制化的费用（如付费 API 调用次数限制）。

边缘计算与实时流采集

在靠近数据源的边缘节点（如设备、网关）实时处理和采集数据，减少延迟，适用于实时性要求高的场景。

核心技术：大体有边缘计算框架（如华为 EdgeX Foundry、阿里云 Link Edge）、流处理引擎（Apache Kafka、Flink）。

应用场景诸如，智能制造领域的产线传感器的毫秒级数据采集与异常检测；自动驾驶领域的车载摄像头、雷达的实时环境数据处理。

特点：低延迟，减少网络带宽压力；但边缘节点计算能力有限，需平衡本地处理与云端存储之间的协同。

调研与访谈采集

通过设计问卷、开展用户访谈、组织焦点小组等方式，主动收集一手数据。

涉及到的技术包括：问卷星（线上发放）、Nvivo（访谈数据整理）、SPSS（数据统计）等。

应用常见于获取用户需求、态度偏好、市场反馈等主观信息等场景。

特点就是便捷、有针对性；却缺少动态更新、实时对齐。

往期推荐

一文读懂「数据集」(一)：请收好这份指南

一文读懂「数据集」(二)：请收好这份指南

【声明】内容源于网络

菲利信科技

重庆菲利信科技是全国领先的人工智能大数据服务商，专注于为AI算法训练提供数据产品及解决方案，拥有上百项知识产权。依托领先的技术和丰富的经验，已为国内外500多家人工智能企业和科研机构提供了优质的数据服务，涵盖无人驾驶、教育、金融等多个领域。

内容 243

粉丝 0

菲利信科技重庆菲利信科技是全国领先的人工智能大数据服务商，专注于为AI算法训练提供数据产品及解决方案，拥有上百项知识产权。依托领先的技术和丰富的经验，已为国内外500多家人工智能企业和科研机构提供了优质的数据服务，涵盖无人驾驶、教育、金融等多个领域。

总阅读300

粉丝0

内容243