如果你在数据科学领域还只是个新手,那么建议你先看看——《五本书带你入门数据科学》,入门后,再学习《R语言案例实战》。
数据分析告诉你系列:
数据分析告诉你,就业形势真的很难……
2020年6月20日,深圳光明区光明金融街华发·融御花园(一期)认筹结束,公众号公布的数据显示有近9000人抢394套房,中签率低至4.4%。由于中签率太低,在微博上引起了各位大V开始纷纷吃瓜,怀疑其中大有猫腻。

有趣!于是我也下载了认筹公示名单进行分析,来看看其中是否隐藏着什么猫腻!
下载了数据之后,因为数据是Excel的格式,所以直接打开即可。可以看到,公示的数据格式如下所示:

可以看到,有用的数据,只有客户姓名和客户证件号码。为了保护隐私,开发商对信息进行保密处理,其中客户姓名只保留姓和最多一个名字,其他用星号隐蔽,客户证件号码只保留前面6位和末尾4位。
为了方便我们对数据进行分析,我们需要先处理联名购买的数据,例如上图中的第11行数据,我们需要把联名的一行数据,转成多行数据,代码如下所示:


针对微博网友的疑问,我们来对名字和身份证号码进行频次分析,代码如下所示:

执行代码,发现38个姓名和身份证重复的数据,如下所示:

不过,一个人能够拥有两个购房名额,因此只要一个身份没有超过三套房,也是非常正常的。
众所周知,我们可以通过身份证前 6 位,来得到身份证拥有者对应的出生地,而对应的规则,可以直接通过民政部发布的信息来获取,网址:http://www.mca.gov.cn/article/sj/xzqh/2020/2020/202003301019.html

有了这份数据,我们就可以根据身份证前6位,确定所有者的地区,再根据身份证前两位,确定省份,最后根据省份确定区域,代码如下所示:

执行代码,即可得到每个中签者的地区、省份和区域,如下所示:

接着,我们就可以使用图形的方式,来展示地域分析的结果,我们按照从大到小的顺序,来逐步展现,首先是区域,结果如下所示:


可以看到,位于深圳的楼盘,按道理来说,深受华南地区的购房者青睐才对,但是从饼图中我们可以看到,华南地区和华中地区的中签者比例相当,可见不愧是深圳,来了都是深圳人。
接着我们从省份的角度来观察中签者所属的区域,代码和图形如下所示:


可以看到,购房最多的还是广东人,接着是湖南人、湖北、江西、河南和四川等,从省份来看的话,在深圳购房的广东人居多,这个倒是非常正常的。
最后我们来看看,广东省内那个市的人,购房者对多,代码和图形如下所示:
可以看到,中签者多为深圳人,其次是梅州、揭阳、汕头等潮汕地区的城市,从城市上来看,也没有什么异常之处,毕竟,深圳市的人,在深圳买房,再正常不过了。
因此,从上面分析结果来看,深圳光明区光明金融街华发·融御花园的抽签,没有什么问题,一切都显示非常正常。
如果你对文章中用到的数据和代码感兴趣,关注本订阅号,回复“数据分析案例”,即可获取代码和数据进行练习。
推荐阅读
新手入门推荐:
五本书带你入门数据科学
免费阅读付费电子书的方法
不会爬虫也可轻松使用的大数据!
不会爬虫也可轻松使用的大数据!续!
R数据分析实战
R语言案例实战——用户流失预测
R语言案例实战——A/B测试效果检验
R语言案例实战——用户流失原因分析
R语言案例实战——寻找KPI用户特征
R语言案例实战——游戏收入减少原因分析
R语言案例实战——广告投放的渠道效果评估
R语言案例实战——用户为什么留下来?
概率图模型系列文章:
概率图模型——贝叶斯定理
概率图模型——精准推断
概率图模型——最大似然估计
概率图模型——连续特征参数估计
概率图模型——EM算法
概率图模型——高斯混合模型
概率图模型——蒙特卡洛抽样
概率图模型——马尔科夫蒙特卡罗(MCMC)方法
马尔科夫实战
异地女神发朋友圈,秒算天气嘘寒问暖
女神妥妥已追到手,股票分析养家糊口
蒙特卡罗实战
计算圆周率π
计算定积分
厕所排队问题
司机越浪,公路越堵?
