
文章涉及数据:
1、企业数字化转型数据
2、专利数据
3、企业财务指标等基础数据
数据皮皮侠相关数据:
上市公司数字化转型程度指数测算(李瑛玫版)(2001-2022)
上市公司专利质量数据(附原始数据及stata代码,1990-2022年)
【摘要】社会各界关于企业数字化转型的重要性已经基本达成共识,但对企业数字化转型的效果存在严重分歧。产生这一现象的主要原因是现有研究对企业数字化转型的测度存在问题:一是测度对象不够统一明确,二是测度方法不够科学准确。这导致很多研究结论不可比较、难以复制和相互冲突。为了更好地处理上述难题,本文运用机器学习和大语言模型构造一套新的企业数字化转型指标。本文首先对2006—2020年上市公司年报中的句子进行人工打标签,然后用标记结果训练和微调包括大语言模型在内的多个机器学习模型,选择其中分类效果最好的ERNIE模型作为句子分类模型来预测全部文本中句子的标签,最终构造了企业数字化转型指标。理论分析和数据交叉验证均表明,本文构建的指标相对已有方法更准确。在此基础上,本文实证检验企业数字化转型对财务绩效的影响。研究发现:第一,企业数字化转型能够显著提高财务绩效,其中,大数据、人工智能、移动互联、云计算和物联网均有明显作用,但区块链并没有明显的作用;第二,只有在财务绩效较差的企业中,数字化转型才能够显著提高财务绩效;第三,企业数字化转型提高财务绩效的主要渠道包括改善效率和降低成本。本文研究对于推动企业数字化转型和实现经济高质量发展具有一定现实意义。
【关键词】企业数字化转型数字经济数字技术人工智能大语言模型
【原文链接】企业数字化转型的测度难题:基于大语言模型的新方法与新发现-中国知网(cnki.net)

1、引言
本文利用前沿的机器学习方法和大语言模型(largelanguagemodel,LLM),基于2006—2020年中国上市公司年报文本,立足全面体现各种数字技术在企业中的实际使用状况,构造了4181家上市公司的一套数字化转型指标。具体来说,数字化转型的测度分五步进行:第一步,整理爬虫抓取和手动收集的上市公司年报,并将年报中的“管理层讨论与分析”和“目录、释义及重大风险提示”这两部分内容作为企业数字化转型的相关文本。第二步,将相关文本按照句号和分号全部分割为句子,构成待预测句库。第三步,对相关文本同时进行随机抽取以及抽取包含关键词的文本,形成待标记句库,对待标记句库进行人工标注,并以此判断企业是否进行了数字化转型。第四步,基于大语言模型ERNIE等,采取有监督的机器学习方法进行句子分类模型的训练。第五步,使用训练后的ERNIE模型对待预测句库进行逐句预测,判断上市公司是否使用以及使用哪种数字技术,并最终构建一套新的企业数字化转型指标。为了验证新指标的有效性,我们先后将其与专利数据、地区数据以及国际文献等进行六个方面的对比,均发现本文构建的数字化转型指标与现实高度吻合。与词典法相比,本文构造的指标在内容上更加完备,在表意上更加真实。
在使用新方法构造了企业数字化转型指标的基础上,本文实证检验了企业数字化转型与企业财务绩效的关系,并得到了三点新发现:第一,总体而言,企业数字化转型能够显著提高其财务绩效(ROA和ROE),但并非所有的数字技术都有这种显著的积极作用,大数据、人工智能、移动互联、云计算和物联网均能显著提高ROA和ROE,但区块链未能显著提高ROA和ROE。第二,不同财务绩效的企业进行数字化转型的效果不同。对于财务绩效较差的企业,数字化转型能够显著提高ROA和ROE;而对于财务绩效较好尤其是非常好的企业,数字化转型对ROA和ROE的作用效果并不显著。第三,企业数字化转型提高财务绩效的主要渠道有两个,分别为改善效率和降低成本,而提高收入的渠道没有被证实。
2、研究设计
2.1.变量
2.1.1.被解释变量
企业财务绩效(Y),用ROA(总资产收益率)和ROE(净资产收益率)度量。
2.1.2.核心解释变量
企业数字化转型(DT)。其中包括是否进行了企业数字化转型以及是否使用了六中新型数字技术(大数据、人工智能、移动互联、云计算、物联网和区块链)中的一种。
2.1.3.控制变量
企业年龄、企业规模、增长率(以企业营收同比增速度量)、市值账面比、第一大股东持股比例、董事长是否兼任总经理和现金流等变量。
2.2模型设计
为了探究企业数字化转型对企业财务绩效的影响,本文构建如下基准模型:

其中因变量Yi,t表示第t年企业i的财务绩效,用ROA(总资产收益率)和ROE(净资产收益率)度量;关键解释变量DT是一组度量企业数字化转型的哑变量,包括是否进行了企业数字化转型(Digi-Tech,即企业是否使用了任何一种数字技术),以及是否使用了六种新型数字技术(大数据、人工智能、移动互联、云计算、物联网和区块链)中的一种。Controls代表一系列控制变量。参考已有文献的做法(杨德明和刘泳文,2018;赵宸宇等,2021;DeStefanoetal.,2018),我们在回归方程中控制了企业年龄、企业规模、增长率(以企业营收同比增速度量)、市值账面比、第一大股东持股比例、董事长是否兼任总经理和现金流等变量。λt表示时间固定效应,μi表示企业固定效应,εi,t代表随机扰动项。本文使用的是企业层面的聚类标准误。
3.实证分析
3.1.基准回归
表2提供了基准回归的结果,其中核心解释变量为企业数字化转型哑变量(DigiTech)。从中可以看出,无论因变量是ROA还是ROE,关键解释变量的系数都在1%的水平上显著为正。这意味着,当使用基于ERNIE模型构造的新指标后,企业数字化转型显著地改善了企业的财务绩效。然而,上述基准回归可能存在反向因果关系,即财务绩效好的企业现金流充足,更有能力使用数字技术。为了缓解反向因果关系,在表2第(3)和第(4)列,我们将全部因变量提前一期,发现企业数字化转型的系数依然显著为正。这初步证明,企业数字化转型总体上提高了企业的财务绩效,即数字化转型总体上是成功的。这符合经济学逻辑,并且与部分已有文献(杨德明和刘泳文,2018;何帆和刘红霞,2019;赵宸宇等,2021)的发现是一致的。

3.2.机制检验
为了检验效率渠道,本文使用企业的TFP(全要素生产率)作为因变量。测算企业TFP的核心问题是解决生产函数估算中的内生性问题,而ACF方法能够有效解决OP和LP法在估计劳动力投入弹性时可能出现的多重共线性问题,因此被广为接受(Loecker&Warzynski,2012)。在表6第(1)(2)列,我们采用ACF方法,先后基于销售额和经济增加值计算了TFP1和TFP2。
为了检验收入渠道,在表6的第(3)列,本文将总收入的对数(lnIncome)作为因变量。为了检验成本渠道,在表6第(4)列将总成本的对数(lnCost)作为被解释变量。综合成本和收入两个维度,我们在第(5)列加入了成本收入比(cost2Income=总成本/总收入)作为被解释变量。表6显示,企业进行数字化转型后,TFP以及总成本分别显著提高和降低,这印证了效率渠道和成本渠道。但同时,总收入并未显著增加,这说明收入渠道未被证实。同时,表6的第(5)列显示每单位的收入所需的成本下降了,这说明成本收入比下降,因此总体上数字技术的使用提高了企业的财务绩效。

4.结论
作为世界上最大的发展中国家,中国在数字经济领域后来居上,已经成为数字经济大国。在中国数字经济快速发展的过程中,企业的数字化转型是非常重要的微观基础。在中国企业数字化转型实践备受关注的同时,学术界对企业数字化转型的研究也如火如荼。然而,目前学术界在测度企业数字化转型指标时,存在测度对象不统一明确、测度方法不科学准确问题,导致对企业数字化转型的现状和效果存在严重分歧。为了更好地推进企业数字化转型的深入研究,同时呼应中国企业数字化转型的难题,本文基于前沿的机器学习和大语言模型,开发了一套新的企业数字化转型指标。为此,本文首先收集了2006—2020年中国上市公司的年报文本作为分析对象。然后,整理了一个包含311个数字技术关键词的词典,并将数字技术分为六种类型:大数据、人工智能、移动互联、云计算、物联网和区块链。接着,对年报文本进行人工标注,形成训练集。之后,采用有监督的机器学习方法,使用百度开发的ERNIE大语言模型,对年报文本进行预测,判断企业是否使用了数字技术以及使用了何种数字技术,在此基础上构造了中国上市公司数字化转型指标。多项交叉验证结果表明,本文开发的新指标明显优于主流的词典法,并且符合中国企业数字化转型的实践。在本文的后半部分,我们使用新方法构建的指标,证明中国上市公司的企业数字化转型显著提高了财务绩效。而且,对于财务业绩比较差的上市公司而言,数字化转型的效果更加明显。进一步,本文发现数字化转型提高财务绩效的主要渠道是提高效率和降低成本。


