
辛辛苦苦回收了几百上千份问卷,结果分析时发现数据一团糟?缺失值、乱填的答案、前后矛盾的逻辑... 这些“脏数据”不仅让你白费力气,更可能得出完全错误的结论!因此数据清洗是调研成败的关键一步。今天这篇干货,带你系统掌握问卷数据清理的方法、步骤和工具,让你的分析结果真正可靠!
想象一下,你收集了一堆未经处理的矿石,里面混着泥土、杂质和废料。数据清洗,就是对这些原始问卷数据进行“淘金”的过程!它的核心目标是:最大程度地保证数据的真实性和有效性。

为什么要清洗?
数据清洗不是一蹴而就,需要系统地进行。遵循以下四个关键步骤:

1. 数据完整性检查 - 把好第一道关
目标: 确保收集到的问卷是“可用”的。
核心标准:
关键指标不能缺失: 如用户ID、核心研究变量(如购买意愿、满意度关键题)。缺失这些,问卷基本作废。
问卷题目完整率 > 90%: 如果受访者大片题目没答,其数据的参考价值就很低。
操作: 快速统计每份问卷的缺失题数/比例,低于标准的直接剔除。
2. 异常值清理 - 揪出“捣乱分子”
目标: 识别并处理那些明显不合理、会显著影响分析结果的数值。
识别方法:
注意: 此方法只是辅助识别,最终是否处理仍需结合业务逻辑判断。非正态分布数据慎用。
例子: 成年男性身高在1.5m-2.2m之间比较合理,出现1.3m或2.5m就需要核查;满意度打分1-5分,出现0或6就是异常。
经验/理论范围判断: 这是最常用也最直观的方法。根据常识或专业知识设定范围。
统计方法(如 ±3标准差原则): 适用于数值型数据且大致服从正态分布的情况。计算均值和标准差,将超过均值±3个标准差范围的值视为潜在异常值。
处理:
核查原始记录: 如果是录入错误,修正。
判断是否为有效特殊值: 有时看似异常的值可能是真实情况(如极少数的超高收入者)。需结合背景判断。
修正或剔除: 确认是无效异常值后,可修正为合理值(需谨慎并备注说明),或直接将整份问卷或该题答案设为缺失值(常用)。

3. 逻辑检验 - 揪出自相矛盾的“谎言”
目标: 通过题目之间的内在逻辑关系,发现受访者可能乱答或理解错误的情况。
常见逻辑矛盾:
人口学信息矛盾: 如“年龄”18岁,“工作年限”20年;“教育程度”小学,“职业”脑外科医生。
行为/态度矛盾: 如“从未使用过产品A” 但 “对产品A的功能非常满意”;“月收入<3000元” 但 “每月购买奢侈品花费>5000元”。
筛选逻辑矛盾: 如根据第3题回答“否”跳过了第4-10题,但受访者却回答了第5题。
互斥项同选: 单选题选了多个答案;多选题中选了明确互斥的选项(如“是”和“否”同时选)。
前后矛盾:
操作: 需要人工或借助工具规则设定,仔细检查问卷逻辑链。发现矛盾点,需核查原始记录或根据规则处理(如整份问卷作废、相关题设为缺失)。

4. 缺失值处理 - 填补“空白”的艺术
目标: 针对经过前面步骤筛选后保留下来的问卷中的缺失值,进行合理处理,避免因直接删除导致样本量过少或偏差。
常用处理方法:
选择建议: 对于大多数调研场景,如果缺失比例不高,均值/众数插补或KNN插补是较实用且效果不错的选择。务必记录使用了哪种插补方法。
1. 简单插补:
2. 随机插补: 从该变量的有效值中随机抽取一个进行填充。能保留原始数据的分布和方差。
3. 最近邻插补 (KNN): 找到与缺失值样本最相似的K个完整样本(根据其他变量计算相似度),用这K个样本在该变量上的均值(数值型)或众数(分类变量)进行插补。效果较好,利用了变量间的相关性。
4. 模型插补 (回归/机器学习): 利用其他变量建立模型(线性回归、逻辑回归、随机森林等)来预测缺失值。理论上最精准,但计算复杂,需要一定数据量和技术。
5. 多重插补 (高级): 生成多个插补数据集,分别分析后再合并结果。能更好地反映缺失值的不确定性,是最严谨但最复杂的方法。
均值/中位数/众数插补: 用该变量所有有效回答的均值、中位数(数值型)或众数(分类变量)填充缺失值。简单易行,但可能低估方差,使数据分布向中心聚集。
固定值插补: 用特定值(如“未知”、“不适用”、“0”)填充。适用于有明确规则的情况,如“未工作”则职业缺失值填“无业”。
直接删除: 如果缺失量极少(如<5%)且是随机缺失,或缺失的是非关键变量,可以直接删除含缺失值的个案(整行)或变量(整列)。简单粗暴,但可能损失信息或引入偏差。
插补法(更推荐): 利用已有信息来估计缺失值。

调研工厂 - 快速数据清洗 :
一站式集成: 在问卷回收后,直接在调研工厂平台内进行数据清洗,无需导出导入,避免数据割裂和版本混乱。
高效人工复核界面: 对于规则标记出的可疑问卷或答案,审核员可以在一个高度优化的界面集中处理:
与SPSS互补: 调研工厂擅长高效、批量地完成问卷层面的初筛、逻辑检验和明显异常值/缺失值识别,大幅减少需要导出的“脏数据”量。清洗后的高质量数据可无缝导出为SPSS (.sav)、Excel等格式,供进一步进行精细的统计分析(如复杂插补、建模)。



