大数跨境
0
0

最全!发表于顶刊上关于数字经济的9种稳健性检验方法

最全!发表于顶刊上关于数字经济的9种稳健性检验方法 数据皮皮侠
2024-01-31
1


原文信息:

孙伟增,毛宁,兰峰等.政策赋能、数字生态与企业数字化转型——基于国家大数据综合试验区的准自然实验[J].中国工业经济,2023(09):117-135.



本文以中国首个数字经济试点政策——国家大数据综合试验区(简称“大数据试验区”)设立作为准自然实验,从提供数字补贴、改善地区数字发展环境和促进数字知识溢出三个方面,考察数字化政策通过改善数字生态对企业数字化转型升级的带动效应。并采取了平行趋势检验、安慰剂检验、工具变量估计、排除其他政策影响、调整企业数字化指数度量方法、倾向得分匹配-DID估计、负二次项回归、考虑子公司处理效应和控制城市时间趋势九种方法进行了稳健性检验,基准模型设定如下:

1. 平行趋势检验

模型设定:

使用双重差分法重要的前提是满足平行趋势的假设,即在大数据试验区设立之前,处理组和控制组企业数字化发展水平具有相似的变化趋势,以此保证控制组作为处理组的反事实对照组的合理性。本文使用经典的事件分析方法来进行平行趋势检验。具体来说,本文首先定义了11个年份虚拟变量(timen,n = -7, -6, … , 1, 2, 3),其中n = -7, -6, … , -1分别表示大数据试验区设立前7年,前6年,…,前1年,n = 0, 1, 2, 3分别表示大数据试验区设立当年及之后的年份。然后将这些年份虚拟变量与大数据试验区虚拟变量(bigdata)进行交互,引入模型(1)替代原来的bigdata·time变量,具体模型设定如下:

检验结果:


2.安慰剂检验

本文根据2016年大数据试验区的设立情况,随机生成了相同数量的处理组城市,处理时间依旧为2016年。然后,本文把这两个虚拟变量交乘便可得到一个随机生成的“伪”大数据试验区变量,并将该变量替换模型(1)中的真实的大数据试验区变量进行回归。将上述过程重复进行500次可以得到的500个“伪”大数据试验区的系数估计结果。


3. 工具变量法

本文进一步采用工具变量法来解决大数据试验区选址的内生性问题。具体来说,本文从《中国统计年鉴》中整理了2004-2015年各省7级以上地震次数(earthquake),以此表征各地区的地质稳定性。该指标越大说明该地区的地质稳定性越差,在该地区设立大数据试验区的概率也越低。进一步地,本文用earthquake与表征政策实施年份的post变量相乘作为模型(1)中bigdata×post的工具变量。

表1

被解释变量:

(1)

(2)

(3)

bigdata×post

digital_level

digital_level

bigdata×post


9.2119***

5.5901***



(3.4585)

(1.6329)

earthquake×post

-0.2061***


-0.7466


(0.0440)


(0.7387)

控制变量

企业固定效应

年份固定效应

观测值

16325

16325

16325

F值

21.95



调整R2



0.6311


4. 排除其他政策影响

本文手工收集了上述政策信息,并构建了这些政策冲击的控制变量引入模型进行控制。具体来说,针对上述每一类政策,本文通过官方文件和相关权威新闻搜集了每个城市是否实施和实施时点的信息,然后采用与大数据试验区相同的做法构建了“是否受政策影响”与“政策实施前后”虚拟变量的交乘项,并将这些变量引入模型(1)中来控制它们对企业数字化转型的影响。结果见表2第1列。


5. 调整企业数字化指数度量方法

一是,考虑到数字相关领域企业与数字经济联系更为紧密,为了迎合数字经济潮流,它们在年报中更容易“嵌入”数字化理念。为了避免企业虚报导致的度量偏误,本文在表2的第2列中剔除了数字领域(包括电信、广播电视和卫星传输服务(代码I63)、互联网和相关服务业(代码I64)、软件和信息技术服务业(代码I65))的企业样本。

二是,进一步删除了信息披露质量等级为合格的企业样本,仅保留信息披露质量等级为优秀和良好的企业样本,以尽可能避免企业“策略性信息披露”带来的影响,结果表2的第3列所示。

三是,为了进一步检验企业“策略性信息披露”问题的影响,本文参考赵璨等(2020)的做法,通过构建企业数字化信息披露程度的模型估算出企业数字化相关词频的正常披露次数,把实际披露词频超过估计的正常词频的观测样本定义为“夸大披露”的样本,将其删除后重新进行回归,结果如表2的第4列所示

四是,本文参考袁淳等(2021)的做法,将数字化词频分别除以年报中管理层经营讨论与分析内容的文字数量和句子数量进行标准化处理,然后重新代入模型(1)进行估计,结果如表2的第5-6列所示。

五是,本文借鉴何帆等(2019)、祁怀锦等(2020)的研究,以年报附注中披露的与数字化转型相关的无形资产占无形资产总额的比重来衡量企业数字化水平, 然后作为被解释变量代入模型(1)进行回归,结果如表2第7列所示。


6. 倾向得分匹配-DID估计

借鉴余永泽和潘妍(2019)的处理方式,本文采用倾向得分匹配-双重差分法(PSM-DID)来控制可能存在的“选择偏差”导致的内生性问题。表2第8列报告了PSM-DID的回归结果。本文发现在对处理组和控制组进行匹配后,核心解释变量的系数与基准结果相差不大,进一步验证了大数据试验区对企业数字化转型的积极影响。


7. 负二次项回归

本文被解释变量是关键词出现次数,也可以使用计数模型来进行估计。本文使用固定效应负二项回归模型进行了回归,表2第9列结果显示核心解释变量的系数依然显著为正,说明大数据试验区对企业数字化转型具有积极的影响。


8. 考虑子公司处理效应

本文基准回归中关于企业是否位于大数据试验区的定义主要依赖于上市公司的注册地,即母公司所在地。考虑到许多上市公司的子公司与母公司不在同一个城市,即处理状态存在差异,由此可能对本文实证结果造成影响。特别地,如果母公司注册地不在大数据试验区内,而子公司处于大数据试验区,这类企业也可能会受到政策的影响,但在本文基准回归中将其归为对照组,从而可能造成结果低估。为了解决这一问题,本文收集了各个企业子公司所在地信息,将子公司位于大数据试验区的企业也定义为处理组样本,然后对模型(1)进行重新估计。回归结果见表2第10列


9. 控制城市时间趋势

考虑到各个城市随着时间变化的一些因素也可能对企业数字化水平产生影响,本文还加入了城市固定效应与时间趋势的交乘项以控制各个城市的时间趋势差异。表2第11列的回归结果显示核心解释变量的系数在1%水平上显著为正,证实了本文研究结论的稳健性。

10.数据代码

点击下载原文数据+代码.zip


【声明】内容源于网络
0
0
数据皮皮侠
社科数据综合服务中心,立志服务百千万社科学者
内容 2137
粉丝 0
数据皮皮侠 社科数据综合服务中心,立志服务百千万社科学者
总阅读2.3k
粉丝0
内容2.1k