大数跨境
0
0

数据标注流程的关键步骤:数据采集与清洗

数据标注流程的关键步骤:数据采集与清洗 数智淘丁
2025-10-31
0
导读:在预处理过程中,要把脏数据“洗掉”的数据清洗是重要的环节。

点击蓝字

在预处理过程中,要把脏数据“洗掉”的数据清洗是重要的环节。

在进行数据标注工作之前,我们需要准备标注数据“原材料”,用不同的方式采集海量的原始数据,再通过“数据清洗”将其整理成便于被分析使用的高质量数据。

那么,这些数据从哪来?怎么得到这些原始数据呢?

图片

01

图片

数据标注的首要环节:数据采集

1、数据来源

根据《国家数据资源调查报告(2021)》显示,2021年全年,我国的数据产量达到6.6ZB,整个世界产生了67ZB的数据量。这么庞大的数据量,主要有大量人群产生的海量数据,科学研究和各行各业的数据积累,以及大量传感器产生的海量数据。数据标注的原始数据来源,就是从这些数据中获取公开的数据集和专业的数据集。

公开数据集是政府、科研机构等对外开放的资源,获取比较简单,而专业数据往往更耗费人力物力,有时需要通过人工采集、购买所得,或者通过拍摄、录制等自主手段所得。

按照产生的数据主体,具体可细分为以下来源:

(1)巨量机器产生的数据:如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。

(2)大量人群产生的数据:如微信、微博、抖音、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据等。

(3)少量企业应用产生的数据:如关系型数据库中的数据和数据仓库中的数据等。

2、数据采集的方法

就数据获取而言,大型互联网企业拥有稳定安全的数据资源。对于其他大数据公司和大数据研究机构而言,获取大数据的方法主要有:

(1)系统日志采集

Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,采用分布式架构,能满足大数据的日志数据采集和传输需求。

(2)互联网数据采集

通过网络爬虫或网站公开API等方式从网站上获取数据信息,还可以使用DPI或DFI等带宽管理技术实现对网络流量的采集。

(3)APP移动端数据采集

APP是获取用户移动端数据的一种方法,APP中的SDK插件可以将用户使用APP的信息汇总给指定服务器。

(4)与数据服务机构进行合作

数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、明确地获取自己所需要的数据。

3、常见的标注数据

数据来源多种多样,数据量也越发庞大,即使如此,并不是每种数据都适合标注,具体而言,常见的标注对象主要分为图像与视频数据、语音数据、文本数据等。


图片

02

图片

数据标注工作的“清道夫”:数据清洗

在获取数据后,并不是每一条数据都能够直接使用,有些数据是不完整、不一致、有噪声的脏数据,需要通过数据预处理,才能真正投入问题的分析研究中。
在预处理过程中,要把脏数据“洗掉”的数据清洗是重要的环节。

在数据清洗中,应对所采集的数据进行筛检,去掉重复的、无关的数据,对于异常值与缺失值进行查缺补漏,同时平滑噪声数据,最大限度纠正数据的不一致性和不完整性,将数据统一成合适于标注且与主题密切相关的标注格式,以帮助训练更为精确的数据模型和算法。

PS:淘丁集团拥有千人专业BPO团队,业务分布全国,可提供多类型客服外包、劳务外包、内容风控、数据标注、大模型数据训练等服务,能有效、合理为客户节约企业成本,欢迎咨询。

📧 添加企业微信交流行业信息

申请成为供应商

请关注“淘丁医数云”,查看项目招募详情⬇️

图片

【声明】内容源于网络
0
0
数智淘丁
可承接多种类型内容审核、数据标注、客服外包、劳务外包服务!
内容 437
粉丝 0
数智淘丁 可承接多种类型内容审核、数据标注、客服外包、劳务外包服务!
总阅读56
粉丝0
内容437