大数跨境
0
0

数据分析告诉你,深圳的房子被谁买了!

数据分析告诉你,深圳的房子被谁买了! 数据分析实战
2020-06-25
0
导读:深圳光明区一个500万起的楼盘中签率低至4.4%,由于中签率太低,在各路大V纷纷怀疑其中大有猫腻,数据分析来告诉你,事情的真相究竟如何!

如果你在数据科学领域还只是个新手,那么建议你先看看——《五本书带你入门数据科学》,入门后,再学习《R语言案例实战》。


数据分析告诉你系列:


数据分析告诉你,就业形势真的很难……


2020年6月20日,深圳光明区光明金融街华发·融御花园(一期)认筹结束,公众号公布的数据显示有近9000人抢394套房,中签率低至4.4%。由于中签率太低,在微博上引起了各位大V开始纷纷吃瓜,怀疑其中大有猫腻

有趣!于是我也下载了认筹公示名单进行分析,来看看其中是否隐藏着什么猫腻!
(小编新书,欢迎选购)
一、数据处理


下载了数据之后,因为数据是Excel的格式,所以直接打开即可。可以看到,公示的数据格式如下所示:


可以看到,有用的数据,只有客户姓名和客户证件号码。为了保护隐私,开发商对信息进行保密处理,其中客户姓名只保留姓和最多一个名字,其他用星号隐蔽,客户证件号码只保留前面6位和末尾4位。

为了方便我们对数据进行分析,我们需要先处理联名购买的数据,例如上图中的第11行数据,我们需要把联名的一行数据,转成多行数据,代码如下所示:


执行代码,可以得到处理后的数据,如下所示:


二、频次分析

针对微博网友的疑问,我们来对名字和身份证号码进行频次分析,代码如下所示:


执行代码,发现38个姓名和身份证重复的数据,如下所示:


不过,一个人能够拥有两个购房名额,因此只要一个身份没有超过三套房,也是非常正常的。

三、地域分析

众所周知,我们可以通过身份证前 6 位,来得到身份证拥有者对应的出生地,而对应的规则,可以直接通过民政部发布的信息来获取,网址:http://www.mca.gov.cn/article/sj/xzqh/2020/2020/202003301019.html

有了这份数据,我们就可以根据身份证前6位,确定所有者的地区,再根据身份证前两位,确定省份,最后根据省份确定区域,代码如下所示:


执行代码,即可得到每个中签者的地区、省份和区域,如下所示:



接着,我们就可以使用图形的方式,来展示地域分析的结果,我们按照从大到小的顺序,来逐步展现,首先是区域,结果如下所示:


可以看到,位于深圳的楼盘,按道理来说,深受华南地区的购房者青睐才对,但是从饼图中我们可以看到,华南地区和华中地区的中签者比例相当,可见不愧是深圳,来了都是深圳人。

接着我们从省份的角度来观察中签者所属的区域,代码和图形如下所示:



可以看到,购房最多的还是广东人,接着是湖南人、湖北、江西、河南和四川等,从省份来看的话,在深圳购房的广东人居多,这个倒是非常正常的。

最后我们来看看,广东省内那个市的人,购房者对多,代码和图形如下所示:




可以看到,中签者多为深圳人,其次是梅州、揭阳、汕头等潮汕地区的城市,从城市上来看,也没有什么异常之处,毕竟,深圳市的人,在深圳买房,再正常不过了。

因此,从上面分析结果来看,深圳光明区光明金融街华发·融御花园的抽签,没有什么问题,一切都显示非常正常。


如果你对文章中用到的数据和代码感兴趣,关注本订阅号,回复“数据分析案例”,即可获取代码和数据进行练习。


推荐阅读


新手入门推荐:


五本书带你入门数据科学

免费阅读付费电子书的方法

不会爬虫也可轻松使用的大数据!

不会爬虫也可轻松使用的大数据!续!


R数据分析实战


R语言案例实战——用户流失预测

R语言案例实战——A/B测试效果检验

R语言案例实战——用户流失原因分析

R语言案例实战——寻找KPI用户特征

R语言案例实战——游戏收入减少原因分析

R语言案例实战——广告投放的渠道效果评估

R语言案例实战——用户为什么留下来?


概率图模型系列文章:


概率图模型——贝叶斯定理

概率图模型——精准推断

概率图模型——最大似然估计

概率图模型——连续特征参数估计

概率图模型——EM算法

概率图模型——高斯混合模型

概率图模型——蒙特卡洛抽样

概率图模型——马尔科夫蒙特卡罗(MCMC)方法


马尔科夫实战


异地女神发朋友圈,秒算天气嘘寒问暖

女神妥妥已追到手,股票分析养家糊口


蒙特卡罗实战


计算圆周率π

计算定积分

厕所排队问题

司机越浪,公路越堵?

【声明】内容源于网络
0
0
数据分析实战
数据科学实战型原创文章分享,包括但不限制于R、Python、Spark、MySQL等在数据分析、数据挖掘、数据抓取、数据可视化 的精品分享,个人官网:www.datastudy.cc
内容 84
粉丝 0
数据分析实战 数据科学实战型原创文章分享,包括但不限制于R、Python、Spark、MySQL等在数据分析、数据挖掘、数据抓取、数据可视化 的精品分享,个人官网:www.datastudy.cc
总阅读36
粉丝0
内容84