PPV课大数据
SPSS是如何做到发现数据质量问题,例如,如何发现缺失值?

(1)系统缺失值、空白值
每一个变量均有可能出现系统缺失或者空白,当数据量巨大时我们根本无法用眼睛看出是否有缺失,最明智的做法是把这项任务交给数据分析工具,比如Excel,可通过数据有效性、筛选、查找、计数等功能去实现,如果是SPSS数据源,可以通过描述统计之“频率”项来实现。

上图,五个变量中,家庭人均收入有效样本94,有6个无效样本,在spss数据区域显示为空白值。其他变量均没有缺失,对于这6个缺失值是留是踢需要谨慎。
(2)变量取值分布
这一项不容忽视,一般由于输入错误、数据本身或者其他原因造成。这里分分类变量和数值变量进行检查。
分类变量取值分布检查:
描述统计之“频率”项,可以对变量以及变量取值进行频次统计汇总,因此,此处仍然采用“频率”项。

上图,我们已经确认是否献血样本全部有效,但是不代表这个变量没有其他噪声。通过此变量取值分布的考察,我们可以发现是否献血有4个水平,分别为“0”“1”“No”“Yes”,但实际上,该变量的取值至于两个水平,“No”“Yes”,其余两个取值是错误操作导致的,这是系统缺失值,可以通过重新赋值进行处理。
数值变量取值分布检查:
数值变量取值分布不宜采用“频次”的统计,一般可通过直方图、含有正态检验的直方图来实现。

上图,数值变量的直方图,可以清楚的看到其分布情况。可以初步判断存在异常值。
(3)离群值、极值
在SPSS中可以通过“箱图”直观的看到异常值,探索分析项或者箱图功能可实现。

上图,为spss探索分析结果,还可以设置分组变量。可以直观的发现,家庭人均收入存在极值,编号为66,可以快速查找定位。


如果你还有更多关于SPSS的问题,请点击底部的“阅读原文”直接求教专家吧,专家会及时给你解决!
PPV课其他精彩文章:
0、回复“活动”查看PPV课社区百日掘金活动-积分兑换Iphone 5s、MINI金条
1、回复“干货”查看干货 数据分析师完整知识结构
2、回复“答案”查看大数据Hadoop面试笔试题及答案
3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝
4、回复“可视化”查看数据可视化专题-数据可视化案例与工具
5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限
6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布
7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载
8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募
9、回复“每日一课”查看【每日一课】手机在线视频集锦

