工资地区差异和预测
摘要:选取部分指标对广东、湖北、四川三省的工资水平进行分析,运用主成分分析法(pca)、KMeans聚类,研究内在相关指标情况,并在此基础上对三省的未来工资进行模型预测,建立多元回归模型并在此基础上采用岭回归进行优化。
一、数据分析
2020 Happy New Year
1.1 热度研究
在百度上爬取100篇不同公众号关于工资的文章,来进行文本分析,运用jieba库对100篇文章进行分词并统计词频,得到频数最多的40个词及频率如下:
分析可以看出和工资关联度比较高的词包括以下2类:
地点类,比如公司、企业、岗位、北京、城市等,这些词说明了工资在同一公司内部不同岗位,在不同公司、企业之间,不同城市之间都存在较大的工资差异,即使我们还没有毕业,我们也能感受到这种差异带来的对我们生活的影响,是在发现排名高的大学都在经济发达,工资水平高的地区,是发现家人要求我们选择就业前景好的专业的时候。
量纲类,比如:标准、最低工资、平均工资、月薪、薪酬等,这些量纲被人们广泛关注是因为它们代表着人们拿到手的收入的多少,与人们的生活、尤其是经济状况息息相关,我们关注这些量纲的变化,可以看出一段时间以来工资的增长幅度、做出一定的未来预期,我们对自己未来的经济预期一样对我们的生活产生巨大的影响。
1.2 数据来源与描述
从wind数据库和国泰安数据库中获取2000-2018年我国以下经济指标:
城镇单位就业人员工资总额:累计值、居民消费价格指数、城市居民消费价格指数、商品零售价格指数、城市商品零售价格指数、企业利润总额、企业数、人均工资、职工平均货币工资合计、房屋平均销售价格、商业营业用房平均销售价格、个人所得税、教育支出、社会保障和就业支出、城乡储蓄、地区生产总值、地区生产总值-第一产业、地区生产总值-第二产业、地区生产总值-第三产业、第一产业占GDP比重(%)、第二产业占GDP比重(%)、第三产业占GDP比重(%)、商品房销售面积、商品房销售额
其中,挑选了东中西部较有代表性的三个省份——广东、湖北、四川省的数据,下面是这三个省2000-2018年人均工资的数据:
由分析可知,广东、湖北、四川省的人均收入增长趋势相似,而且相关系数比较高,广东省的人均收入相对较高。
二、数据清洗
2020 Happy New Year
由于不少数据2000-2012年数据缺少,且简单填充无法真实反映者短时间出现的经济周期波动,因此最终选择相对完善的2012-2018年的数据进行研究,对于其中企业数、企业利润总额、商品零售价格指数和城市商品零售价格指数等指标,缺乏中间1、2年的数据,本文运用均值线性填充法进行填充。
三、相关因子分析
2020 Happy New Year
对与上文的指标进行聚类分析和KMeans分析,其中广东省的聚类结果如下:
直接对数据进行聚类得到的结果,出现图中右侧指标划分不具体,原因在于数据之间度量不统一,数据方差较大,y轴的尺度较大,因此本文对数据进行归一化处理,将所有数据通过转换函数 ,(为样本数据的标准差),进行归一化,使得数据映射道(0,1)的区间中,降低未来运算中由于数据间标准差过大而导致结果不理想。
从直观上看,可以对指标分为两类。下面是对应热力图。
第一类指标包括:城镇单位就业人员工资总额:累计值、企业利润总额、企业数、职工平均货币工资合计、房屋平均销售价格、个人所得税、教育支出、社会保障和就业支出、城乡储蓄、地区生产总值、地区生产总值-第一产业、地区生产总值-第二产业、地区生产总值-第三产业、第三产业占GDP比重(%)、商品房销售面积、商品房销售额
第二类指标包括:居民消费价格指数、城市居民消费价格指数、商品零售价格指数、城市商品零售价格指数、商业营业用房平均销售价格、第一产业占GDP比重(%)、第二产业占GDP比重(%)。
对两类指标进行定义。其中,第一类指标多从个人角度出发,包括影响个人收入增加的企业数据、一二三产业的产值、国家转移支付(教育支出、社会保障和就业支出),影响个人支出的个税、商品房价格等。
第二类指标与商品价格相关,包括各类价格指数和营业住房价格,此外还包括一二产业占GDP比重。
将对前面的分类进行拓展,第一类指标不变,原第二类指标分成两类,如下:
第一类指标包括:城镇单位就业人员工资总额:累计值、企业利润总额、企业数、职工平均货币工资合计、房屋平均销售价格、个人所得税、教育支出、社会保障和就业支出、城乡储蓄、地区生产总值、地区生产总值-第一产业、地区生产总值-第二产业、地区生产总值-第三产业、第三产业占GDP比重(%)、商品房销售面积、商品房销售额
第二类指标包括:居民消费价格指数、城市居民消费价格指数、商品零售价格指数、城市商品零售价格指数、商业营业用房平均销售价格、
第三类指标包括第一产业占GDP比重(%)、第二产业占GDP比重(%)。
第三类指标代表传统产业的经济影响
相关性分析
接下来对各个指标和工资关系进行相关性分析。结果如下,
人均工资 1.000000
广东:城镇单位就业人员工资总额:累计0.957439
居民消费价格指数 -0.574398
城市居民消费价格指数 -0.514773
商品零售价格指数 广东 0.092379
城市商品零售价格指数 广东 0.141626
企业利润总额 0.898964
企业数 0.970839
职工平均货币工资合计 1.000000
房屋平均销售价格 0.986847
商业营业用房平均销售价格 0.175356
个人所得税 0.995313
教育支出 0.992368
社会保障和就业支出 0.985684
城乡储蓄 0.994791
地区生产总值 0.997086
地区生产总值-第一产业 0.962740
地区生产总值-第二产业 0.996541
地区生产总值-第三产业 0.997220
第一产业占GDP比重(%) -0.959667
第二产业占GDP比重(%) -0.979790
第三产业占GDP比重(%) 0.985034
商品房销售面积 0.898360
商品房销售额 0.958569
其中,强正相关(>0.9)包括 广东:城镇单位就业人员工资总额:累计值、企业数、房屋平均销售价格、个人所得税、教育支出、社会保障和就业支出、城乡储蓄、地区生产总值、地区生产总值-第一产业、地区生产总值-第二产业、地区生产总值-第三产业、商品房销售额;
强负相关(<-0.9)包括 第一产业占GDP比重(%)、第二产业占GDP比重(%)
相关性不大的数据包括:城市商品零售价格指数 广东、商品零售价格指数 广东、商业营业用房平均销售价格
热力图如下:
2020 Happy New Year

