
数据清洗
1、格式统一
-
格式规范化:统一视频格式(如MP4)、视频元数据格式(如JSON)。
-
日期格式统一:在处理视频元数据文件时,若发现日期格式不一致,应将所有日期格式统一转换,例如将“MM-DD-YYYY”转换为“YYYY-MM-DD”格式,以确保所有数据在相同格式下进行处理。
2、去重复值
3、处理异常值
-
识别异常值:采用统计学方法(如标准差、箱线图)识别视频元数据中的异常时长或其他偏离正常范围的值。 -
修正方法:根据数据中的正常值,修正或删除异常值,以确保训练数据的质量。例如,若发现部分视频数据的时长字段出现负数值,应首先筛选出这些异常文件,进行集中处理和修正。
4、数据整合
数据治理流程
1、项目启动
-
需求分析:通过与客户或相关方的沟通,深入了解具体需求并提出定制化的数据解决方案。 -
项目排期与报价:基于需求分析,制定详细的项目排期和预算报价,综合考虑数据量、工作量和预期时长。 -
采集/数据标注方案制定:明确数据源和采集方法,制定数据预清洗标准,确保数据质量与一致性。明确标注规则,选择合适的标注工具以保障标注的准确性和一致性。 -
小批次试标试采:在大规模标注或数据采集前,进行小批次的试标试采,以便及时发现问题并调整方案。 -
错误反馈与更正:及时反馈试标试采中发现的问题,并进行更正,以确保数据质量和标注一致性。

