大数跨境
0
0

(万字长文、全面总结)金融领域的自然语言

(万字长文、全面总结)金融领域的自然语言 金科丛林
2025-03-18
2

来自南加州大学马歇尔商学院的Gerard Hoberg、华盛顿大学奥林商学院的Asaf Manela,共同撰写的《The Natural Language of Finance》,即将发表于《Foudations and Trends in Finance 》。


image.png


本文对金融经济学研究中使用的各种自然语言处理(NLP)工具进行了全面总结。这些工具使研究人员能够将丰富但带有主观性的文本数据纳入到先进的实证分析中。自然语言处理工具有其优缺点,并且有些工具更适合特定的研究议程。在过去十年里,使用这些工具的研究数量激增,本文记录了它们在公司金融、资产定价等领域的主要贡献。这些工具提供了灵活性,使研究人员能够检验在它们出现之前无法检验的假设,同时也在识别的清晰度以及区分那些旨在解释一系列研究结果的假设的能力方面有所提升。最后,本文指出了未来研究工作所面临的挑战和方向。


01
引言


自然语言处理(NLP)是人工智能(AI)和语言学的一个子领域,专注于计算机与人类语言之间的交互。它涉及设计算法和系统,使机器能够以有意义的方式理解、解释、生成和回应人类语言。从经济学家的视角(即本文关注的角度)来看,自然语言处理有助于将主观性内容映射为客观的定量指标,进而推动了在其出现之前无法实现的严谨的计量经济学分析和推断。

最近,像OpenAIChatGPT和Anthropic的Claude这样的大型语言模型的推出,让广大民众意识到人工智能(AI)极有可能会极大地改变社会的诸多方面,包括研究领域。然而,对于金融和经济学(以及其他领域)的一部分研究人员来说,这早已是预料之中的事,因为促使这些公司的先驱开发者开发这些新技术的许多观点,在相当长一段时间内就已经在影响着研究工作了。真正让经验丰富的研究人员都感到惊讶的是,这些新技术推动研究前沿的速度竟然如此之快。

上述情况综合起来说明,像自然语言处理这样的前沿人工智能工具已经拥有了一段发展成熟的历史,并且有了既定的先例,但同时,其未来的应用速度很可能会远超过去。本研究的目标是全面记录这些技术的发展历程,记录自然语言处理工具在这一领域的核心优缺点,同时也就可能更具研究价值的方向提供一些推测性的内容。本文不仅旨在对学术研究人员有参考价值,对于有兴趣在实际应用中使用这些工具的学生和从业者来说也同样具有相关性。

本研究的一个核心目标是帮助那些对这些工具不太熟悉的学者判断这些工具是否适合他们的项目,了解仍然有待解决的核心缺陷,并指导研究人员如何选择特定的自然语言处理工具来解决不同类型的研究问题。总体来看,许多项目能够从这些工具中受益匪浅,甚至有些项目只有在这些工具的帮助下才有可能开展。然而,这些工具并非万能的,因为一些常常被部分研究人员误解的局限性依然存在。最后,本文要指出,并不存在一种适用于所有问题且“最佳”的通用自然语言处理工具。相反,鉴于金融经济学领域研究目标的广泛多样性,开发基于自然语言处理的研究流程大概60%靠的是一种技巧,另外40%则取决于对计算机科学中哪些工具最为“前沿”的了解。

本文的综述首先会阐述自然语言处理工具的诸多核心优势。这些优势包括:(A)能够测量过去无法测量的经济变量;(B)能够比过去更精确地测量变量;(C)在不排除多种解释的情况下,能够提高研究的严谨性和识别能力;(D)通过专门的机制测试,能够提高对任何研究结果的解释清晰度。这些优势中的任何一项单独来看,都算得上是重大贡献。综合起来,对许多项目而言,其益处是巨大的。

然而,本文也要谨慎地提醒读者,这些工具仍在不断发展,而且这是有充分理由的。它们尚未成为适用于所有研究议程和实际应用的万能解决方案,因为本文注意到存在一些局限性,未来的研究人员可能会致力于解决这些问题。这些局限性包括:(A)一些文本语料库对于研究人员的关键问题并无太多参考价值,因此统计效力不足;(B)一些文本语料库是通过自愿披露的过程生成的,缺乏一致的报告标准,这可能会导致错误的推断;(C)一些研究议程会受到“黑箱批评”的影响,研究人员无法了解基于人工智能的模型得出有力研究结果的原因;(D)不太了解情况的研究人员可能会选择不合适的人工智能模型,从而得出价值有限的推断。

对于研究人员必须做出的第一个重大决策——是否开展一个研究项目,以及如果决定开展该项目,是否应考虑使用人工智能工具而言,全面了解其成本与收益至关重要。对于通过了初步评估的项目,本文接下来会提供指导,说明在众多自然语言处理工具中,哪一种可能最适合特定的研究项目。没有一种工具对所有项目都是最优的,因此本文建立了一个基于研究人员目标的框架,并指出项目可分为三种类型。这些类型包括:(A)目标明确的项目,这类项目需要在文本语料库中测量高度专业化的经济项目,或者特定的文档特征,比如积极或消极的语气;(B)需要从整体上利用语料库中的所有内容,以最大限度地增强信号强度来预测经济变量的项目;(C)需要对大量文档进行比较,以评估它们之间关联程度的比较性项目。本文将这三种类型称为“研究目标类别”(ROCs)。希望选择最优方法的研究人员首先应该确定这三个类别中哪一个最符合他们的研究目标。

接下来本文会说明,一旦研究人员确定了他们项目的研究目标类别,可供考虑的候选最优自然语言处理工具的范围就会大幅缩小。然后本文会指出另外两个有助于进一步缩小选择范围,直至确定一种工具的因素,即研究人员对昂贵资源的可获取程度,以及研究人员在优化信号强度与解释清晰度之间的偏好。例如,许多学术项目可能更倾向于解释的清晰度而非信号强度,但一些应用项目可能更关注信号强度。

然后,本文的研究记录了文献中几种特定自然语言处理工具的发展历程,同时指出了哪些工具最适合哪些研究目标类别。这些工具包括早期的方法,如基本词表;较为中级的方法,如主题模型和精确的锚定短语查询;以及更先进、前沿的技术,如大型语言模型。在讨论这些内容时,本文会附注一些观点,说明哪些方法可能会失宠,以及更前沿的大语言模型有可能(或不可能)如何取代某些工具。

本文在综述的结尾对金融经济学中关键子学科的文献进行了总结,以记录自然语言处理工具是如何革新关键领域的研究的。

关于公司金融,本文研究了产业组织、信息披露与信息环境、公司投资、财务约束、创新以及人工智能在公司金融中的作用等方面的研究。

在资产定价方面,本文涵盖了短期收益可预测性、价格对信息的逐步调整、风险与不确定性、机构投资者、社交媒体以及高频收益可预测性等内容。

本文还简要总结了其他领域,如气候金融和银行业的研究。本文会在讨论中补充一些关于金融经济学中自然语言处理应用迅速增长的领域的说明,并指出可能有更多发现的潜力领域。


02
金融领域中文本的比较优势


2.1 核心优势


文本数据和先进的自然语言处理方法为研究人员提供了显著的优势,它们是对数值数据库的补充,而非替代品。例如,股票收益最适合用数值数据来衡量,但自然语言处理技术可以提高本文预测收益的能力,同时有助于识别可解释的渠道,用以解释这种收益的可预测性。当数值数据库存在局限性时,就会出现其他互补的情况,而自然语言处理工具可以针对特定应用增强对数据的测量。一个典型的例子是以更具前瞻性的方式或通过更精细的分类来衡量相关概念。比如,与使用数值会计数据相比,自然语言处理能够以更高的未来预测性来衡量公司投资情况,并且自然语言处理还能增加测量的细致程度,以衡量会计数据中无法观测到的投资类型。现在,本文总结一下使研究项目最能从自然语言处理方法中获益的核心特征。

• [新经济概念需要测量] 自然语言处理工具最明显的优势或许在于,它有助于测量那些无法通过现有数值数据库获取的经济概念。一个例子是企业产品在产品生命周期中的状态(参见Hoberg and Maksimovic (2022))。那些基于理论驱动,但由于测量方面的限制而研究不足的研究目标,对于基于自然语言处理的研究来说,特别具有潜力。

• [存在大量有用的文本语料库] 同样显而易见的是,当研究议程有一个相关的大型语料库,且该语料库对需要测量的概念有很高的涵盖度时,自然语言处理方法就能发挥其优势。例如,10-K报告语料库对公开交易的公司有很好的覆盖,并且其内容中有很大一部分用于讨论产品市场(Hoberg and Phillips (2016))。随着语料库规模的增大,自然语言处理工具的优势会大幅提升,因为这些工具是自动化的且可扩展。

• [为实现目标最大化信号强度] 一些研究议程,比如预测股票收益,通常非常注重最大化预测信号。历史背景表明了为什么这与自然语言处理很契合。大多数自然语言处理方法是由计算机科学和语言学领域的专家开发的,他们在发表成果时,几乎总是只将信号强度作为主要标准。因此,对于金融经济学家来说,使用这些方法时,这些优势是 “自然而然” 就能获得的。

• [结果的可解释性很重要] 尽管较老的方法存在局限性,但许多较新的自然语言处理方法旨在确保高度的透明度和可解释性。例如,主题模型旨在为语料库中可解释的内容提供完整的分类体系。嵌入模型和生成式人工智能甚至为提高可解释性提供了更多的机会。

• [研究人员需要改进研究结论的确定方式] 正如本文将在下一小节阐述的那样,自然语言处理工具提供了多种途径来改进对特定研究结果的确定方式。上述内容表明了这些工具带来的广泛益处,很容易得出这样的结论:每个项目都能从这些工具中获益。因此,本文在本节结尾处着重说明一下这些工具的局限性。本文列出了一系列对自然语言处理技术优势最常产生误解的情况。

• [已有数值化的概念度量方式] 许多研究项目依赖于那些已有高质量数值度量方式的预测。例如,内幕交易可以通过美国证券交易委员会(SEC)的备案文件来衡量。试图通过文本数据来改进这一数据来源的研究人员不太可能成功,尽管自然语言处理可以用于对内幕交易的深层次理论进行检验。

• [存在文本语料库但规模较小] 许多研究人员曾向本文作者咨询如何使用自然语言处理工具来衡量有趣的经济概念,但随后透露他们仅有一个小规模的语料库。例如,有一次交流涉及的语料库只有80份文档,每份文档4页。当语料库规模较小时,研究人员应该更直接地考虑采用人工分类的方法。

• [自愿披露因素影响过大] 许多自然语言处理研究基于文本语料库中的内容,而这些内容并非来自强制报告。新闻稿就是一个例子,因为这类语料库中的内容是由一系列内生性决策产生的。在其他情况下,比如美国证券交易委员会的备案文件,很多内容是强制要求且统一呈现的。当一个语料库主要是由内生性选择生成时,研究人员需要评估增加的度量灵活性(倾向于使用自然语言处理)与混杂因素的影响程度(需谨慎对待)之间的权衡。当然,如果内生性选择本身是作为因变量(而非假定的外生决定因素),那么这种担忧就不存在了。本文将在2.4节更详细地讨论这个问题。

• [资源方面的考量] 自然语言处理工具需要计算能力、编程专业知识以及资金资源。幸运的是,计算机科学领域的持续研究以及易于使用的Python软件包的广泛应用,使得研究条件更加公平。此外,生成式人工智能越来越能够以相当高的准确率为研究人员编写代码。总体而言,先进技术的优势和积极的应用案例远远超过其劣势,这也说明了为什么这些技术在金融和经济领域的应用正在迅速增加。接下来,本文将讨论研究结论确定方式、透明度以及自愿披露内容与强制披露内容等更具体的问题。


2.2 研究结论的确定


显然,先进技术能够助力创造出对先前无法测量的概念的新度量方式。然而,这些技术如何提升研究人员进行因果分析的能力,这一点却不那么显而易见。本文将探究这种可能性,并提供一个知识框架,以指导研究人员了解如何以这种方式运用这些技术,以及如何构建有关因果结论的重要论据。

仅仅测量一个新概念这一行为,并不能直接解决因果关系问题。然而,这样的步骤仍然很重要,因为从研究主题的角度来看,它拓展了研究的前沿领域。此外,基本的回归分析可以在新的经济变量之间建立重要的关联。这些关联并不能得出因果关系,但却是一个重要的事实起点。

为了确立因果关系,研究人员需要:(A)证明有足够的效力来做出有意义的推断(例如,进行有效的工具变量检验和F检验);(B)研究人员需要论证这些推断满足排他性约束条件。由于对第一个条件的要求属于计量经济学范畴,本文在此不再进一步讨论,只是指出减少测量误差(自然语言处理技术的核心贡献之一)有助于提高工具变量的效力。相反,本文将重点关注排他性约束条件,并基于两个原则提出一个知识框架。

1. 原则1:[完全排他需要单一解释]:排他性约束条件的合理性在于,从经济学角度论证关键解释变量只能通过唯一的一种渠道来影响被解释变量。如果给定的解释变量是真正的随机处理变量,那么这种论证很容易进行。但如果该变量是通过文本准确测量的经济变量,那么因果结论并不一定能直接得出。

2. 原则2:[部分排他以及排除更多解释的技术]:本文认为,有些研究结果所允许的推断比其他结果 “更接近因果关系”,而这种 “接近程度” 的概念可以量化为对于给定研究结果,仍未被排除的、合理的经济解释渠道的数量。一个完美的随机实验只有一种未被排除的解释,完全满足排他性要求。一个不太理想的工具变量可能符合两种解释,但不会更多。质量更低的工具变量可能有五种未被排除的解释。未被排除的解释较少的工具变量具有更好的 “识别性”。相应地,随机实验最接近因果关系,第二种工具变量次之,第三种则距离因果关系最远。

许多研究人员都认同,对于研究人员需要解决的许多最重要的经济问题,无法通过完美的随机实验来进行检验。因为针对这些主题进行一些高质量的研究,总比因无法达到完美而不进行任何研究要好,所以理性的学者可能会认为,对于给定的重要研究结果,一篇减少了未被排除的解释数量的文章是有重要贡献的。本文认为,像自然语言处理这样的先进技术为研究人员提供了在四个方面提高排他性质量的机会,所有这些都促使人们更多地使用这些工具进行研究。

1. 改进途径1:[使用自然语言处理构建看似满足排他性要求的工具变量]:文献中使用的大多数准自然实验(例如特定法律的意外变化)无需先进技术就能轻松测量。然而,一些准外生变化的来源可能很难衡量其对样本中每个公司的影响。例如,“爱丽丝诉CLS银行案” 的最高法院判决突然减少了对大量通常与算法和方法相关的专利的保护。遗憾的是,对于每项专利都不存在可用于衡量处理效应的数值指标,因此无法计算出一个 “处理效应” 来用于面板数据检验或使用标准数值数据进行双重差分检验。然而,存在一个相当大的子样本,其中一组提交的专利因最高法院的判决而被专利审查员明确驳回,另一组则没有。因此,Acikalin et al. (2022)利用这个真实样本对大语言模型进行训练,以便根据每项专利的详细文本描述来确定其受最高法院判决的影响程度。结果得到了一个可预测的易受影响程度得分,该得分可以很容易地汇总到每个公司年度,从而在公司层面创建了一个计算得出的处理效应,进而可以进行正式的双重差分分析。本文首先提到这个改进途径,是因为使用自然语言处理直接构建看似满足排他性要求的工具变量,是新技术如何协助因果分析的最明确的例子。

2. 改进途径2:[利用技术减少关键推断变量的测量误差] 许多研究人员都认同,使用自然语言处理工具可以减少所测量数值的测量误差。在上述两个原则的背景下,测量误差是一个经济学问题,对于给定的研究结果,它可能会导致未被排除的解释数量增加。例如,一位研究人员使用简单的词表来测量一种新型投资时,可能会无意中将所有形式的投资都纳入测量范围,因为“投资”这个词本身就在词表中。因此,使用这个变量得出的具有统计显著性的结果,可能是由所提出的新型投资导致的,也可能是通过捕捉其他类型投资的信号而显现出来的。这样一来,就至少存在两种未被排除的解释。相比之下,一种精确测量特定类型投资的方法(例如,使用经过验证的精确锚定短语查询),应该几乎不会产生测量误差。因此,这种方法排除了更多的解释,因为该测量方法不会捕捉到其他类型的投资信息。由此可见,能够减少测量误差的技术可以提高研究结论的确定性。本文将减少测量误差列为第二个改进途径,是因为先进技术在大幅减少测量误差方面具有很高的潜力。

3. 改进途径3:[利用技术构建高度特定的机制检验] 在许多情况下,研究人员完全清楚,一个给定的结果可能归因于不止一种未被排除的解释。在这种情况下,自然语言处理工具会有所帮助,因为文本数据极其丰富且海量,这使得研究人员能够针对相互竞争的机制设计高度有针对性的额外检验。例如,研究人员可以假设,如果一种解释是正确的,那么在数据中就必须能看到一个辅助性结果;而如果另一种解释是正确的,就应该得到另一个结果。一个例子是,Fr´esard et al. (2020)的研究发现,与拥有尚未成熟(尚未获得专利)技术的创新型企业相比,垂直整合在拥有成熟已实现技术的创新型企业中更为普遍。作者提出,对于处于早期阶段的企业来说,合同的不完备性是一个可能的解释,因为在整合的情况下创新激励会被削弱。另一种解释可能是,某些技术需要更长时间才能获得专利,或者难以获得专利。作者利用10-K报告来生成有关合同摩擦和技术方面法律挑战的度量指标。作者证明,主要结果与这些类型的法律问题普遍存在的情形密切相关,因为与对照企业相比,这些企业在10-K报告中更频繁地披露了这些问题。这类检验使总体结论更接近因果推断,因为专门的证据支持了某一种解释。至少,所提出机制的这些证据增加了所提出的解释得到支持的可能性,尤其是当检验特别针对某一种解释且具有高度的特定性时。然而,这种方法也有局限性,因为可能不存在高质量的机制检验,或者现有的检验可能并不完善。

4. 改进途径4:[利用技术添加重要的控制变量] 在某些情况下,研究人员可能会担心存在一种难以观察到的特定替代因素。然而,计量经济学表明,为这个替代变量添加一个控制变量将是一个解决方案,因为这个问题属于遗漏变量问题。在这种情况下,研究人员可以使用新技术来测量这个重要的控制变量。研究人员还应该专注于减少控制变量的测量误差。如果纳入新的控制变量后,原始结果仍然稳健,那么这一发现将再次使推断更接近因果结论,因为又排除了一种解释。即使不能完全消除不确定性,这种改进也使相关研究相对于之前的研究向前迈进了一步。

总体而言,因果推断是现代金融经济学研究面临的最大挑战之一。


2.3 透明度:避免“黑箱批评”


“黑箱批评”在金融领域由来已久,其根源至少可以追溯到20世纪90年代长期资本管理公司的倒闭事件。这是一个值得高度关注的问题,使用自然语言处理工具的研究人员需要认识到其中的风险,尤其是在那些与政策相关或具有实际应用价值的研究议程中,因为经济主体可能会基于研究结果做出重要决策。由于这个术语在大众媒体中也有一定的渊源,本文通过一个简短的(虚构的)故事来引入这个概念。

故事:一位超级明星统计学家向一家对冲基金提供了一个软件应用程序,该程序以大量的股票价格数据作为输入,输出下周投资的投资组合权重。经过回测的投资组合,即使使用流动资产,也实现了令人难以置信的7.0的夏普比率。由于这一表现远远超过了该基金目前使用的任何策略,他们听从了该算法的建议。随着利润不断累积,该基金增加了对这一策略的杠杆使用。但有一天,南美洲发生的一件重大事件极大地改变了收益情况,在该基金能够退出其杠杆头寸之前,其管理的资产损失了90%。基金经理们后悔听从了这个“黑箱”的建议,并且完全不知道自己错在哪里。

从这个故事中得到的最基本的教训是,决策者需要知道为什么某个特定的模型会以它的方式预测结果。经过训练以最大化某一经济结果(例如股票收益的一阶矩)的模型,也可能会在无意中最大化另一个结果(例如对系统性风险的暴露程度)。因此,一个没有可解释性的预测模型是潜在危险的。另一方面,如果这个“黑箱”能够提供可解释性,决策者就可以通过风险管理来改进他们的策略,从而更安全地优化他们的目标。

如今,对“黑箱批评”(以下简称BBC)的担忧已经深深影响了训练有素的金融经济学家评估研究的方式、政策评估的方式以及实际决策的制定方式。本研究的作者支持这种提高透明度的趋势,并且本文注意到当前学术体系中另一个加剧了这种担忧的特点。问题在于,金融经济学家从包括计算机科学、语言学和数据科学等其他领域借用了先进技术。这些领域的发表要求往往取决于在预测一阶矩结果方面的成功与否。相比之下,证明算法还具有内置的风险管理保护措施并不是发表文章的核心要求,这就把这项关键任务留给了使用这些方法的金融经济学家。关键在于,一个算法是否能够说明做出预测的原因,以及可能会(无意中)最大化哪些其他目标。

随着使用自然语言处理技术的学者(包括金融经济学家)对可解释性的需求不断增加,其他学科中算法开发者对可解释性缺乏关注的情况正在迅速改变。截至目前,金融经济学领域的研究人员应该能够以更高的细致程度同时提供可预测性和可解释性。这使得“黑箱批评”在很大程度上成为了20世纪90年代和21世纪头十年的问题,而对于2020年代及以后来说,这个问题的影响相对较小(前提是研究人员接受过使用可解释性工具的训练,并且这些工具质量很高)。然而,“黑箱批评”存在两个方面的问题:(1)对关键研究结果的解释;(2)在主要渠道中未被预见的风险暴露。未被揭示的风险这第二个问题更难得到全面解决。因此,本文鼓励研究人员投入更多精力使用新技术来改进风险管理,并开发测试方法来评估各种技术解决方案应对意外事件的能力。

本文现在简要说明一下哪些自然语言处理工具提供了显著的可解释性工具,同时要注意,实现可解释性是一项重大成就,需要结合具体项目进行思考。这件事归根结底更像是一门艺术,而不只是简单的Python脚本,因此在整篇文章中,除了下面列出的内容之外,本文还会以多种不同方式对其进行讨论和强调。

• [早期尝试]:早期具有一定透明度的方法包括词表,因为研究人员确切地知道计算过程中使用了哪些单词。基本的文档余弦相似度有助于报告在被比较的文档中最重要的重叠单词。然而,这两种尝试虽然在一定程度上有所帮助,但并不能完全说明真正驱动预测信号的因素是什么。词表可以展示计算的机制,但无法揭示哪些单词实际上是重要的,以及哪些单词可能与词表中的单词相关,但本身并不在词表中(混杂因素)。最令人头疼的问题是,任何一个重要的单词可能因为多种原因而重要,因为这种计算方式并没有给出明确的因果解释(重点是遗漏了相关变量)。至于余弦相似度,问题则有所不同,以列表形式报告示例并不能清楚地表明对于有数百万条观测数据的样本来说,整体上哪些因素是重要的,因为这些示例可能并不具有代表性。这些例子表明了良好的意图,但以2020年代的标准来看,本研究的作者认为它们只是具有一定的启发性,尤其是在涉及政策领域和与人类福祉息息相关的实际应用的研究中。

• [主题模型(一项重大创想)]:诸如潜在狄利克雷分配模型(Blei et al. (2003))这类主题模型早在 2003 年就出现了,被视为在可解释性方面的重大飞跃。类似于资产定价中的因子模型,当语料库中的文档具有高度的主题性且拥有强大的“文本因子结构”时,主题模型能够将一个语料库全面分解为系统呈现的各个主题。值得注意的是,潜在狄利克雷分配(LDA)是一种只需极少的研究人员输入就能生成这种主题结构(称为分类体系)的方法。一般来说,研究人员只需指定一个整数,用以表明他们希望 LDA 生成的分类体系的细致程度。正如本文将在下一节关于方法选择的内容中讨论的那样,像 LDA 这样的主题模型,尽管从很多定义来看具有革命性,但并没有取得最初预期的成功,因为在许多情况下,LDA 生成的因子并不像期望的那样易于解释。当然,这只是一种观点,本研究的作者也看到了一些成功的案例,但仍然认为,语言学和计算机科学领域的学者在宣布成功之前,还需要在这个领域进一步创新。

• [锚定短语(适用范围有限但精确)]:锚定短语方法是一种先进且针对性极强的工具,它能够以明确无误的解释识别语料库中特定类型的内容。本文将在下一节讨论这种方法的细节。其结果是这种方法具有直接的可解释性,并且极大地减少了模糊性。这种方法增强了可解释性,但只适用于需要测量高度专业化内容的项目。如果研究人员旨在理解语料库中的所有内容并需要一个分类体系,那么锚定短语方法就没有帮助了。

• [嵌入模型和大语言模型]:现代形式的嵌入模型随着Mikolov et al. (2013)的研究而崭露头角,它建立在 20 世纪 90 年代的潜在语义分析(LSA)等早期理念基础之上。这些模型标志着相较于上述的基本主题模型(如 LDA)有了重大飞跃。与 LDA 这种不考虑文本中单词相近程度因而缺乏效力的词袋模型不同,嵌入模型会考虑上下文,并且能够将与焦点词在相近位置共同出现的单词的重要性内化。Hanley and Hoberg (2019)以及 Cong et al. (2019)的两项研究显著表明,将主题模型的逻辑明确或隐含地与嵌入模型的上下文相结合,能够在将结果归因于可解释主题的能力方面带来实质性的提升。像 ChatGPT 和 Anthropic 的 Claude 这样的更大规模的语言模型进一步利用了这些优势,因为额外的提示可以揭示对经济预测越来越有说服力的解释。

• [自动假设生成]:尽管这一领域的工作尚处于起步阶段,因此任何预测都带有推测性,但本文注意到,使用自然语言处理工具自动生成解释特定研究结果的假设,在提高可解释性方面可能会卓有成效。Ludwig and Mullainathan (2024)是一个值得注意的例子,该研究表明,即使进行分析的经济学家无法做到,计算机生成的假设也能够为一个预测确定一系列的解释。直观地说,理解更广泛的潜在解释范围,对于告知经济学家如何改进研究结论的确定性以及管理风险似乎至关重要。


2.4 自愿披露与强制披露的内容


影响一些使用自然语言处理方法进行研究的一个较为重大的挑战是,所分析的文本内容是来自强制披露框架还是自愿披露框架,以及这些内容是否受到策略性披露的影响并且可能并不真实。例如,像 10-K 报告这样的文件对于上市公司来说是强制性的,并且受到法规的约束。另一方面,社交媒体上的讨论,或者即使是在 10-K 报告中关于某些特定主题的讨论,受到美国证券交易委员会(SEC)的监管较少,可能是自愿性的。一个例子是关于未来收购计划的讨论,公司可能会将其作为公司战略的一部分进行披露,也可能不披露。这种区别很重要,因为当内容的披露不是必需的(自愿的)时,研究人员得到的经济推断可能会被公司披露或不披露关键信息的动机所干扰。例如,研究人员可能会发现,关于未来合并的声明与股票收益呈负相关。然而,这本身可能并不表明未来的合并会导致收益降低,因为情况可能是,拥有最佳合并机会的公司为了保持其专有优势而不披露此类声明。因此,这种披露可能是由于选择效应而不是合并本身来预测收益。

这种类型的自愿性内容通常被称为策略性披露,它成为一个问题的程度与公司披露或不披露重点内容的可能性有关。有些信息是普遍会被披露的,比如对公司业务的描述。但其他信息,包括更具推测性的前瞻性声明,可能不太常被披露。一般来说,10-K 报告相较于许多其他语料库受到这个问题的影响较小,因为 10-K 报告本身对于上市公司是强制性的,因此许多关键信息会被广泛披露。关于这个讨论的一个值得注意的补充是,策略性披露本身可以作为因变量进行研究。在这种情况下,这种内生性是可取的,而不是一个需要关注的实证问题。理解策略性披露是未来研究的一个富有成果的领域。

当面对更多具有内生性的自愿披露机制时,寻求明确研究结论的研究人员可以考虑使用一些工具来减轻对内生性的担忧。首先,他们可以探索披露更为普遍或更有可能是强制性披露的子样本。其次,如果有可用的工具,研究人员可以考虑使用外生工具变量,这些变量能够改变所研究内容的重点经济属性。第三,研究人员可以探索更强大的自然语言处理工具,这些工具可以增加覆盖范围或用于检查多个文档。

最后,研究人员可以使用结构模型来处理这种内生性。例如,Kelly et al. (2021a)开发了一个基于经济动机的高维选择模型,该模型可以改进从文本(以及更广泛地从稀疏计数数据)中获取信息的能力。他们分别对包含某个短语的选择和重复该短语的频率的选择进行建模。重要的是,他们的模型允许并行估计,使其在计算上具有可扩展性。他们模型的一个局限性是,它将文本数据视为词袋或短语袋,忽略了文本序列中短语的顺序。未来有前景的研究方向是将本文下面讨论的一些大语言模型的创新纳入到更复杂的文本选择模型中。


2.5 生成回归变量问题


像文本这样的自然语言数据使研究人员能够对有趣的社会现象生成全新的实证度量指标。然而,这个过程中一个有时会被忽视的副产品是,当评估与基于文本的度量指标相关的估计参数的不确定性时,将经济结果对基于文本的度量指标进行回归分析,需要对生成的回归变量进行调整 (Pagan, 1984)。

如果研究人员在第一阶段估计一个基于文本的度量指标,然后在第二阶段的回归中将经济结果对该基于文本的度量指标进行回归分析,那么围绕第二阶段系数的置信区间可以使用Murphy and Topel (2002) 的方法进行调整。例如,Manela and Moreira (2017)报告的标准误差考虑了这样一个事实,即其主要回归变量——新闻隐含波动率(NVIX),是在第一阶段的文本回归中估计出来的。

Battaglia et al. (2024)的研究表明,这类推断问题更广泛地延伸到了由人工智能和机器学习生成的变量上,并且可能会导致有偏差的估计和无效的推断。这篇论文提出了两种方法,用于在这种情况下纠正偏差并进行有效的推断。随着自然语言处理工具的重要性日益增加,本文预计在严谨的实证分析中,这类推断调整的重要性也将发挥越来越重要的作用。


03
研究目标


3.1 优化研究方法的知识基础


在撰写本文时,典型的金融经济学家或金融从业者都经历了多年在商业、经济和数学等学科领域的训练。有一部分人(但并非大多数)有过大量接触计算机科学的经历。在这些有接触经历的人中,过去5到10年里达到较高计算机科学水平的人更是少之又少。因此,大量活跃的研究人员和从业者对自然语言处理(NLP)工具包中广泛可用的各种工具知之甚少,而能够自信地为特定研究议程选择最佳工具的人就更少了。本节旨在弥补这一差距。由于利用日益增多的文本、音频和视觉数据所能做出的潜在贡献在范围上极为巨大,改进研究方法的选择能够极大地加速该领域的研究进展并提升研究质量。

目前,最重要的出发点是,没有一种“放之四海而皆准”的自然语言处理方法能够最完美地实现所有(甚至是大多数)研究议程。本文建议,研究方法的选择最好采用一种简单的“研究目标”分类系统,并结合基于几个关键的“研究人员考量因素”进行细化。本文在下面介绍这个框架。由此产生的系统通常会将特定项目的最优方法选择范围缩小到仅一种(或最多2到3种)可供采用的候选方法。

本文基于目标的框架旨在支持使用文本语料库的研究。本文将在后面的小节中分别讨论音频和视觉研究。从现在起,本文的讨论将从一位希望使用特定文本语料库来回答特定研究问题的研究人员的角度出发。例如,本文将讨论金融经济学研究中两种常用的语料库:来自美国证券交易委员会(SEC) Edgar网站的10-K报告语料库和报纸文章语料库。尽管本文是从学术研究人员的角度出发,但同样的逻辑也适用于那些希望为商业问题构建实际解决方案,或开发填补行业空白软件的假想从业者。


3.1.1 研究目标类别(ROCs)

本文认为,金融经济学中基本上所有基于自然语言处理的研究问题都可以归入以下三大“研究目标类别”之一。


• 目标导向型研究目标(ROC-Targeted)。这一类别包括那些需要从语料库中提取高度特定和精准概念的研究目标。例如,在10-K报告语料库中识别哪些公司提到了它们使用衍生品来对冲风险。目标导向型研究目标还包括对文本的积极或消极语气、可读性、不确定性或其他主题(如政治倾向)进行评分的项目。


• 整体综合型研究目标(ROC-Holistic)。这一类别包括那些需要基于整个语料库中的所有内容提取最全面信息的综合信号,以预测或解释经济变量的研究目标。例如,确定10-K报告的“总信息含量”以解释公司估值比率,或者利用报纸文章中的所有信息来预测股票收益。这一类别还包括旨在开发对语料库中存在的内容的完整多样性进行建模的分类体系的项目。


• 比较型研究目标(ROC-Comparative)。这一类别包括那些需要对语料库中的文档进行(可能大量的)比较的研究目标。例如,根据10-K报告中的业务描述构建行业分类,这需要比较给定样本中每对公司的文档相似度,以确定哪些公司的文本相似,从而判断它们可能在同一行业运营。另一个例子是评估时间序列中文档的修订频繁程度(对同一文档的不同版本进行比较),以便对新信息的出现速率进行建模。


3.1.2 从研究目标到研究方法的选择

接下来,本文简要总结一下哪些方法与每个研究目标类别(ROC)相匹配,并就上述两个考量因素如何进一步缩小候选方法的范围提供指导。研究人员可以将注意力集中在下面最相关的小节上,以全面评估方法的实施情况。

目标导向型研究目标(ROC-Targeted):目标导向型研究项目要么需要能够识别高度特定经济陈述实例的工具,要么需要能够测量文档特征(如语气/情感、可读性或不确定性)的工具。

整体综合型研究目标(ROC-Holistic):整体综合型研究项目需要能够对语料库中丰富的内容进行建模,然后使用生成的数据结构来预测或解释给定经济变量的工具。研究人员可能还对构建语料库中整体内容的分类体系感兴趣,因为这可以提高可解释性。这是一个雄心勃勃的目标,目前的方法虽然不错,但也并不完美,而且这一领域的方法可能会继续得到发展。

比较型研究目标(ROC-Comparative):比较型研究项目需要能够准确比较文档之间的相关性或相似性的工具,并且通常需要在处理大量文档时保持可扩展性。最常见的应用包括评估文档对之间的相似性以确定同类文档,或者评估随着时间推移有多个修订版本的文档(如首次公开募股招股说明书)的修订程度。从事比较型研究的研究人员应该考虑(从简单到复杂)使用文档余弦相似度、嵌入技术和生成式人工智能(但不是使用提示功能,而是使用这些技术中不太为人所知的空间建模功能)等工具。


04
方法


接下来,本文将深入阐述并详细讨论具体的方法,总结它们在历史上的优势和局限性,提供值得关注的示例,并指出每种方法未来可能的发展潜力。


4.1 使用生成式人工智能为自然语言处理编码


尽管本文这项研究的主要目标是为读者提供一个框架,用以评估他们的项目与自然语言处理方法的匹配度,指导如何选择合适的自然语言处理工具,并帮助他们理解诸如研究结论的确定性以及自然语言处理在金融经济学领域的发展历程等核心问题,但在本节中,本文还是简要提及一些见解,介绍金融经济学家(他们并非专业训练的程序员)如何能够快速、低成本地学习到快速且准确的编码技术。在这方面最重要的一点是,生成式人工智能大语言模型(LLMs)具备生成高质量Python代码的内置能力,甚至可以对现有代码进行调试。它们还可以以对话的方式,向未经专业训练的研究人员解释如何使用Unix终端,如何运行脚本,以及当终端返回各种错误时如何修复这些错误。

以下是一个向Anthropic公司的生成式人工智能模型Claude提出的提示示例,该提示是针对一个比较型研究目标(ROC-Comparative)的doc2vec嵌入项目:

给Claude的提示:我有一个文件夹c:\corpora\,其中包含从1999年到2018年每年的一个子文件夹(例如c:\corpora\1999\)。这些年度文件夹中的每一个都包含大量文档。你能否创建一个Python程序,对每年分别执行以下操作:(1)检测给定年份文件夹中的所有文件;(2)将每个文件作为语料库中的一个独立文档导入;(3)然后进行任何建议的预处理和清理操作,以便将其用于doc2vec模型(在我的应用中,我特别需要删除数字或任何特殊字符,但保留所有单词);(4)然后在这个语料库上训练一个doc2vec模型(使用标准设置,但维度需要为300);(5)然后提取每个文档的300维向量表示;(6)然后运行一个循环,计算语料库中每对文档之间的成对余弦相似度;(7)将成对相似度矩阵导出为一个以制表符分隔的3列文件,这三列分别是成对文档中第一个文档的名称、第二个文档的名称,然后是余弦相似度。这个文件可以有一个标题行,内容为”doc1” ”doc2” 和 ”score”。该文件应保存到c:\corpora\output\中。文件的名称应为”pairsYYYY.txt”,其中YYYY是你根据上述循环所处理的年份。

结果是,Claude以附件形式提供了一个完整的Python脚本,可以直接下载并在Unix终端上运行。生成的结果几乎没有错误,而且是在几秒钟内生成的。如果存在任何错误,只需将收到的特定错误消息提供给Claude(例如,使用这样的提示形式”我收到了这个错误 <<<在此处复制粘贴错误消息>>>。你能修复代码或者建议我该怎么做吗?”),就可以快速修复。调试过程很快就解决了。一个小窍门是,如果原始提示提供了更详细的步骤,那么调试的需求就会更少,速度也会更快。

在收到原始提示后,Claude给出的文本回复还告诉用户,他们需要在Python中安装哪些软件包才能运行它提供的脚本(具体来说,它指出用户需要运行”pip install gensim numpy pandas scikit-learn”)。Claude出色的文本总结还说明了它在生成最终程序时所做的任何判断性决策。例如,上述提示没有说明使用doc2vec训练时的迭代次数(epochs),Claude在其文本回复中指出,它选择了20次迭代作为其决策。在这个例子中,专家的经验是,在他们过去的项目中,50次迭代会更准确,因此他们向Claude提出了一个后续请求:”你能编辑代码,将doc2vec训练的迭代次数改为50吗?” 然后他们立刻就得到了一个更新后的脚本。顺便说一下,一个未经专业训练的学者可能不知道什么是迭代次数(epochs),但同样地,只需简单地让Claude解释一下迭代次数是什么,以及研究人员在选择迭代次数时可能需要考虑哪些因素,就能很快获得这方面的知识。一般来说,通过像这个例子中这样的对话方式来开发代码,与过去简单地将所有编码工作外包给第三方的模式相比,有很多优势,因为过去的模式常常使金融经济学家对代码中重要的判断性决策或潜在问题一无所知。然而,将生成的代码和对话内容与计算机科学家分享,以进行安全检查或实施,仍然是有好处的。对于那些在模型参数、替代模型或如何使用高性能终端等问题上训练较少的新手来说,尤其如此。

Claude的文本回复还指出,Python脚本会将所有字母转换为小写(这是一个好的做法,因为在许多情况下,一个术语的含义不应因大小写不同而有所差异)。最后,文本回复表明,该脚本包含内置的错误处理功能,因为Claude能够意识到潜在的问题情况,并且在处理过程中可以提醒研究人员注意这些情况。例如,在阅读文本回复时,专家意识到他们语料库中的一些文档存在问题,只有很少的文本内容。在这种情况下,他们向Claude提出了后续提示:”你能编辑代码,让它忽略语料库中任何少于25个单词的文档吗?” Claude立刻更新了脚本。

本节的目的是向那些训练不足的自然语言处理专家表明,使用像Claude或ChatGPT这样的大语言模型,通过对话方式开发Python代码是很容易的,而且代码质量通常相当高。网络上还有其他专门为编码设计的大语言模型,尽管这里提到的这些常用的大语言模型已经相当不错了。为了正确管理这个过程,专家应该像上面那样,向大语言模型提供一系列代码中需要完成的任务的提示。提供的细节越多,后续需要提出的请求就越少。不过,这个系统足够灵活,一些专家可能会在与大语言模型进行更长时间的对话后,开发出他们理想的程序。

这种做法显著降低了金融经济学家为他们的项目开发代码的门槛,即使他们不是经过专业训练的编码人员。此外,鉴于大语言模型经过了深度训练,它生成的代码往往在速度、清晰度和效率方面都经过了优化。大语言模型还会在生成的代码中添加注释,这样第三方审核人员就能清楚地理解代码(这是人类编码人员常常忘记做的事情)。除了上述例子之外,学者们还通过与大语言模型对话,学习如何使用Unix运行Python脚本,如何在新机器上安装Python,如何创建虚拟环境,如何编写批处理代码,以及如何处理并行处理。这种大语言模型的方法还可以用于生成SAS中的数据库管理代码,或者Stata中的计量经济学建模代码,并且可以直接以LaTeX表格的形式输出结果。本文的一位作者让大语言模型在大约30分钟内就起草好了他整个学院网站的html代码,其风格和性能都超过了旧网站。结果看起来也更加专业。

在下面总结具体的自然语言处理工具时,本文会简要提及每种方法通常使用的一些Python软件包,但由于篇幅限制,本文不会提供详细的编码实践。这也是因为本文建议读者考虑直接使用大语言模型来起草他们的代码,或者与研究助理合作来完成,这使得本文提供这些内容的必要性更低了。代码生成模型的快速发展降低了在金融领域应用自然语言处理的门槛。

不过,对于依赖大语言模型生成代码,本文要提醒一句。本文鼓励研究人员只依赖大语言模型生成他们自己能够验证的输出。大语言模型可以节省研究人员在代码中查找合适的函数或语法所花费的时间。但最终,研究人员必须理解最终结果,并对其正确性有信心。就像研究助理一样,基于人工智能的研究助理也可能会犯错,而这类错误的责任在于研究人员。专家们为确保质量所采用的一种做法是,在进行重大计算前后保存数据的小样本。研究人员会手动检查这些输出,以确保它们符合预期。如果不符合,他们可以重新评估基础内容,或者与大语言模型进一步对话以进行修正。一般来说,对工具的深入了解以及对代码功能的理解对于成功的研究来说是很重要的。


4.2 用于培养直觉的文本示例


在比较不同方法之前,为了让读者更好地理解,本文接下来编写了一段假想的企业10-K报告中的业务展望内容。在讨论各种方法的运作方式时,本文会以这段内容为例:

展望2024财年,本文预计云计算业务板块将有强劲的增长机会,特别是在支持人工智能的企业解决方案领域。尽管本文面临着来自老牌科技公司和新兴初创企业日益激烈的竞争,但本文在2023年投入的8.5亿美元研发资金已增强了本文的市场地位。由于持续的供应链限制以及不断上升的劳动力成本,尤其是在半导体制造领域,本文预计上半年的营业利润率仍将面临压力。不过,本文最近以2.75亿美元收购了SecureNet技术公司,这应会增强本文的网络安全产品,并创造交叉销售的机会。当前的宏观经济环境,包括潜在的利率变化和地缘政治紧张局势,可能会影响客户的消费模式。尽管如此,本文多元化的收入来源以及拥有21亿美元现金的稳健资产负债表为本文提供了财务灵活性。本文计划继续扩大在新兴市场的业务布局,特别是在东南亚地区,本文认为那里对本文的数字化转型解决方案有着巨大的未开发需求。

虽然这个例子并不罕见,但这段文本的一些方面体现了自然语言处理研究中许多常见的挑战。出发点是这样一个问题:研究人员应该如何表示这段简短的自然语言内容,尤其是当他们试图将这样的文本与数值数据库关联起来以进行计量经济学分析时?挑战在于,即使是这样一段只有150个单词的简单段落,实际上也是一个维度高得惊人的对象。像“strong”(强劲的)这个出现了两次的单词,暗示着积极的前景。但上下文很关键,因为每个单词的含义都取决于在文本序列中它前面或后面的单词。虽然“emerging”(新兴的)这个词单独来看似乎是积极的,但在“increasing competition from [...] emerging startups”(来自……新兴初创企业的日益激烈的竞争)这样的语境中,它却暗示着麻烦。为了降低其维度以便在后续分析中使用,研究人员通常会提出一个更具体的问题,比如“这家公司在2024年的表现会超过其竞争对手吗?” 从这个更狭窄的角度来看,鉴于该公司面临着“日益激烈的竞争”以及“面临压力”的“营业利润率”,负面的前景似乎是合理的。总体而言,提出的研究问题越宽泛,降维问题就越具挑战性。

一种更基于数据驱动的方法可能是收集许多公司在不同时间段的此类业务展望样本,并尝试根据文本对未来业绩进行回归分析。但在这样的数值模型中,文本应如何表示呢?研究人员会使用简单的词频统计吗?为了更多地了解每个单词的上下文,他们可能会考虑2个、3个或n个单词的序列(n元语法)。随着n的增大,捕捉上下文的能力会提高,但与此同时,解释变量的维度会迅速增加,而观察到的n元语法的密度会迅速下降。

在本文于2025年撰写本文时,一种越来越常见的方法是向生成式人工智能模型提出预测要求。但这些模型是如何得出答案的呢?答案中是否存在偏差呢?

自然语言处理领域的文献已经逐渐开发出了更好的工具来解决这些问题,并生成自然语言的低维表示。熟练的研究人员已经成功地使用这些工具解决了各种各样的具体研究问题。本文将总结许多最广泛使用的方法,以及它们如何与各种研究人员的目标相匹配。


4.3 基本词表


词表是金融领域计算文本分析中第一个重要的方法创新。词表方法的引入使得对定性信息进行大规模的系统分析成为可能,催生了一些具有开创性的研究成果,这些成果将文本分析确立为金融经济学中的主流方法。

词表方法将本文的示例文本简化为对预定义类别中单词出现频率的简单统计:


image.png


词表方法在计算上较为简单,且具有清晰的可解释性,这使得它们在文本分析的初步评估中特别有吸引力。然而,当需要更高的严谨性时,这种方法存在显著的局限性:它忽略了文本中单词的上下文以及单词的顺序,无法捕捉复杂的语义关系,并且不能考虑关键术语的否定或限定情况。这些局限性常常导致研究人员主要将这种方法用作初步的基线,或者与更复杂的方法结合使用。现代技术提供了更强的效力和更高的准确性,尤其是在进行特定的解释方面,而非宽泛的内容评估。

Antweiler and Frank (2004)的早期有影响力的研究考察了留言板内容与股票市场活动的关系,发现发帖量可以预测收益波动率和交易量。Tetlock (2007)提供了基础性的证据,表明媒体的悲观情绪可以预测市场回报率降低,随后又会回归到基本面水平,他利用《通用问询者》的哈佛IV-4社会心理词典来衡量悲观情绪。在此基础上,Tetlock et al. (2008)的研究表明,公司特定新闻中的负面词汇可以预测公司的低收益,并且股票价格会在短期内对这一信息反应不足。

Loughran and Mcdonald (2011)的一项重要贡献表明,通用词典在金融语境中会严重错误分类常见词汇——哈佛词典中被认定为负面的词汇,近四分之三在金融应用中通常并非负面词汇。这一见解促使人们开发出了专门的金融词表,这些词表通过精心的人工筛选,利用了深厚的领域专业知识。虽然这种由专家主导的方法受益于从业者积累的知识,但它们也可能引入因筛选者的经验和观点而产生的偏差。尽管如此,洛赫兰-麦克唐纳词表已成为金融文本分析中的基石性资源,展示了在方法开发中特定领域专业知识的价值。

事实证明,词表在衡量文档特征(目标导向型研究目标)和检查与风险相关的内容方面特别有价值。Hassan et al. (2019)使用这种方法从财报电话会议中构建公司层面的政治风险度量指标,而Jiang et al. (2024)则使用美国国家标准与技术研究院(NIST)的词表,通过10-K报告来评估网络安全风险暴露情况。这种方法在公司金融领域的目标导向型研究目标中也被证明是有效的。Li et al. (2013) 通过统计10-K报告中与竞争相关词汇的提及次数,开发出了一种简单而有效的竞争度量指标,而Bourveau et al. (2020) 则通过追踪特定的与产品相关的术语来研究卡特尔行为。

然而,词表也存在重要的局限性。它们忽略上下文,无法处理否定情况,并且可能会错误分类具有多种含义的单词。对于整体综合型研究目标而言,这些局限性尤为突出,因为在这类目标中,理解讨论的完整上下文至关重要。当代研究越来越倾向于使用更复杂的方法,这些方法能够更好地捕捉语言的细微差别和上下文,从而减少测量误差,不过,对于许多应用来说,词表作为一种透明的初步方法仍然具有价值。

词表的简单性自然地与关键词搜索方法相对应,正如Bowen et al. (2017)所指出的,关键词搜索方法在公司金融研究中越来越普遍。这个基本框架继续为更复杂的方法提供基础,同时也为验证更复杂的方法提供了一个有用的基线。

为了实施这些方法,许多研究人员依赖于标准的Python库,如nltk(用于分词、去除停用词)和re(用于高级字符串操作)。pandas库则有助于进行大规模的数据处理。本文还注意到,包括ChatGPT和Claude在内的生成式人工智能模型实际上可以为研究人员编写Python代码。当使用关于代码需要完成的任务的仔细且非常详细的提示时,这样生成的代码往往是准确的,几乎没有错误。


4.4 余弦相似度


余弦相似度是一种用于计算两个空间向量指向同一方向程度的方法。将该方法应用于计算文档之间的相似度在计算机科学领域有着悠久的历史(参见塞巴斯蒂亚尼(2002)),其起源可追溯到萨尔通等人(1975),他们开发了一种用于自动索引的向量空间模型。在金融经济学中,它是比较型研究目标(ROC - Comparative)项目的首选工具。

金融经济学领域的许多研究论文都使用了余弦相似度方法。具有代表性的例子包括构建相关性网络,如Hoberg and Phillips (2016) 关于横向行业相关性的研究,以及 Fr´esard et al. (2020) 关于纵向相关性的研究。聚焦于时间序列中文档修订情况的例子有Cohen et al. (2020b) (10 - K报告各部分的逐年修订情况)、Hanley and Hoberg (2012)(首次公开募股招股说明书的修订情况),以及Hoberg et al. (2014)(将每家公司的业务描述与整体动态演变的节奏进行比较)。使用余弦相似度进行专业内容分析的例子包括Kalmenovitz (2023)(监管强度分析)和Florackis et al. (2023) (网络安全风险分析)。

Python的相关模块,如scikit - learn库中的`pairwise`模块可以提供帮助,也可以使用numpy库来计算点积。gensim也是进行需要余弦相似度的向量分析时常用的选择。对于大型语料库,使用scipy.sparse库中的稀疏矩阵运算可以提高效率。


4.5 精确锚定短语查询


锚定短语方法在解决词表法的一个关键弱点方面迈出了一大步,尤其适用于目标导向型(ROC - Targeted)研究项目。关键在于,像财务约束或套期保值策略这类特定的经济概念,很难用通常出现在词表中的单个单词或双词组合来唯一确定。此外,词表中那些孤立的术语在实际使用中往往有很多其他含义,这会增加干扰因素。以Hoberg and Maksimovic (2015) 的研究为例,财务约束这一概念至少需要两个不同的经济概念同时出现:(1)公司有一项希望资助的投资项目;(2)有证据表明公司在为该项目筹资时遇到困难。仅围绕“投资”这一术语构建词表会干扰推断,因为这样的词表会涵盖对一般投资策略的讨论,使得结果更多地衡量了潜在增长,而非约束程度。可以在词表中添加“延迟”等术语来表示无法进行投资,但这样词表又会涵盖其他形式的延迟,比如供应链中断。

金融经济学领域的许多研究论文都使用了锚定短语方法。具有代表性的例子包括构建财务约束指标(Hoberg and Maksimovic (2015)以及 Linn and Weagley (2019))、研究套期保值和资产定价的离岸业务活动网络(Hoberg and Moon (2017) 以及Hoberg and Moon (2019) )、衡量契约摩擦((Fr´esard et al. (2020))、产品生命周期(Hoberg and Maksimovic (2022))以及通胀风险敞口(Chava et al. (2022))。Bena et al. (2022) 的相关方法开发了只有一种解释的精确N - 元语法,用于将专利编码为基于流程的创新。


4.6 文本回归


文本回归方法解决了金融研究中的一个根本性难题:如何在保证统计有效性的同时,从高维文本数据中提取预测信号。回归方法的一个关键优势在于,它能够控制可观测的混淆变量,使研究人员能够分离出文本中额外的信息内容。

例如,文本回归将本文一直使用的示例转化为一个正则化预测问题:


image.png


其中xij表示单词或短语的归一化频率,例如:


image.png


文本回归为将文本内容与经济结果相联系提供了一个直接的统计框架,便于进行正式的假设检验和推断。主要的挑战在于处理高维度数据、潜在的过拟合问题,以及需要大量的训练样本以获得可靠的参数估计。

Manela and Moreira (2017) 在尝试用《华尔街日报》头版的新闻文本预测波动率指数(VIX)时,就遇到了这些挑战。新闻文章中有数万个不同的单词,但VIX观测值对应的时间周期只有几百或几千个。若使用普通最小二乘法进行回归,会严重过拟合数据,捕捉到一些虚假的关系,而这些关系在样本外并不具有泛化性。

正则化方法为这个高维回归问题提供了解决方案。Manela and Moreira (2017) 采用了支持向量回归(SVR),其他正则化方法,如套索回归(Lasso)也有类似的作用。这些方法在回归目标函数中添加一个惩罚项,使系数估计值向零收缩,从而有效降低模型的复杂度。这种惩罚机制通过迫使模型关注文本中最重要的预测信号,避免了过拟合问题。

Taddy (2013)开发了一种专门为文本分析设计的更复杂的方法。他的多项逆回归框架对回归系数采用了方差未知的独立拉普拉斯先验,由此产生了“伽马 - 套索”估计程序。该方法在处理高维问题时能给出稳定的结果,同时保持了计算效率。Taddy (2015)建议将分布式多项回归与分布式计算结合使用,使其适用于大规模文本分析。Garc´ıa et al. (2023)应用这个框架开发了金融领域特定的情绪词典,结果显示,与传统方法相比,在预测股票回报方面表现更优。

Kelly et al. (2021a)进一步推进了这方面的研究,他们开发了跳跃分布式多项回归模型,该模型同时解决了文本的高维度问题和词频计数中零值普遍存在的问题。他们的框架明确对单词选择(某个单词是否出现)和单词出现强度(出现时的频率)这两个阶段的过程进行建模。在各种经济预测任务中,他们证明该模型的预测性能优于支持向量回归和分布式多项回归。

或许文本回归方法最重要的优势在于其控制混淆解释变量的能力。例如,Kelly et al. (2021a)考虑的一个应用是用报纸文本预测宏观经济结果(如就业情况)。本文可以用新闻文本对就业增长进行文本回归。但这并不是最有趣的问题,因为其他宏观经济变量,包括滞后的就业增长数据,很容易获取,而且可能为预测提供更优的信号。实际上,报纸报道可能已经反映了这些现有的宏观数据。因此,更有趣的问题是,新闻文本在宏观数据之外是否对预测有帮助。Kelly et al. (2021a)展示了如何控制宏观数据,并发现《华尔街日报》的文本在宏观数据本身之外,还具有显著的预测能力。

文本回归方法特别适合整体综合型(ROC - Holistic)研究目标,因为它们可以有效地处理语料库中的所有内容,以预测或解释经济变量。通过估计文档特征与感兴趣的结果之间的关系,它们也能支持目标导向型(ROC - Targeted)研究目标。相比之下,文本回归方法不太适用于比较型(ROC - Comparative)研究目标(这类目标关注文档之间的关系)。

Python的`scikit - learn`库提供了套索回归(`linear_model.Lasso`)和支持向量回归(`svm.SVR`)。R语言用户通常使用`glmnet`包进行惩罚回归。`lightgbm`或`xgboost`也能有效地处理词袋特征或基于嵌入的特征。


4.7 主题模型


在金融研究中,对于整体综合型(ROC - Holistic)研究目标而言,主题模型是最具影响力的方法之一。这些模型并非针对特定的内容元素,而是旨在将大型文本语料库分解为不同的主题成分,这些成分能够刻画文本话语的全貌。随着Blei et al. (2003)开发的潜在狄利克雷分配(LDA)模型的出现,该领域获得了巨大的发展动力。LDA模型将文档建模为主题上的概率分布,其中每个主题本身又是单词上的分布。

将其应用于本文一直使用的示例,LDA模型可能会发现三个潜在主题,例如:


image.png


例如,该模型可能会给主题1分配0.4的概率,在提及主题1的条件下,生成单词“云”的概率为0.3。通过查看每个主题的单词概率,研究人员通常会手动为主题贴上标签。在这里,本文可能会将主题1标记为“技术”或“计算技术”。

主题模型为发现潜在的主题结构提供了一个无监督的框架,同时实现了降维。然而,得到的主题可能不太稳定,通常需要进行大量的参数调整和后处理,才能获得连贯、可解释的结果。

在最近的一个例子中,Bybee et al. (2024)在对商业新闻的研究中,利用主题模型的强大功能进行整体综合型分析。在没有对哪些主题重要性先入为主的情况下,他们让数据引导对《华尔街日报》文章的主题发现。这种方法揭示了各种商业主题如何随时间演变,其中一些主题——尤其是那些与经济衰退相关的主题——在预测经济活动和股票回报方面显得尤为重要。他们的方法包括选择最优主题数量的系统程序和在线估计以避免前瞻性偏差,为成功实施提供了一个模板。

资产定价领域的文献尤其受益于主题模型捕捉风险和情绪多个维度的能力。Israelsen (2014)研究了风险披露主题与因子投资组合之间的关系。Lopez-Lira (2023)使用主题模型分析风险披露,展示了它们与回报预测的相关性。Bybee et al. (2023)从新闻文本中开发出系统性风险因子,有助于解释横截面回报。

事实证明,主题模型在理解金融领域的新兴风险和变化方面特别有价值。Hanley and Hoberg (2019) 将主题建模与词嵌入相结合,以识别和跟踪新兴风险,展示了这个框架如何为金融不稳定提供早期预警。Hoberg and Lewis(2017)使用主题模型研究欺诈公司的披露内容与同行的差异,而Dyer et al. (2017)记录了10 - K报告中披露内容的演变,揭示了随着时间的推移,标准化的“模板化”语言有所增加。

除了风险分析之外,主题模型还有助于阐明公司行为和沟通的各个方面。Ball et al. (2015)使用它们来研究公司如何讨论业务变化和盈利质量。Bellstam et al. (2021) 分析分析师报告以衡量公司创新,发现基于主题的创新衡量指标可以预测公司未来的业绩和增长机会。在监管领域,Kalmenovitz et al. (2021)使用主题模型研究监管碎片化问题,而Lowry et al. (2020)研究了美国证券交易委员会(SEC)的监管程序如何影响首次公开募股(IPO)的披露内容。

最近的方法学进展提高了主题模型的实用性。在线估计方法(Hoffman et al., 2010) 通过按顺序处理文档来解决前瞻性偏差问题。将主题模型与嵌入技术或神经网络架构相结合的混合方法在保持可解释性的同时提高了性能。这些创新尤其有利于金融领域的应用,在该领域中,时间因素和语义准确性至关重要。

当文档具有自然的主题结构时,主题模型的效果最佳。例如,10 - K报告中的风险因素通常遵循标准化模式,这有助于主题发现。像Bybee et al. (2024) 这样的应用的成功表明,即使是更灵活的文本,如新闻文章,通常也包含足够的主题结构,以便进行有效的建模。

常见的Python库包括gensim(包含LdaModel)、tomotopy,或者MALLET工具包(基于Java,但可从Python或R中调用)。对于在线或分布式训练,gensim具有内置支持来处理大规模文本。

展望未来,主题模型可能仍将是金融文本分析的核心,有可能与大型语言模型等新方法结合使用。虽然大型语言模型提供了复杂的文本理解能力,但主题模型在可解释性以及从大量文档集合中提取清晰因子的能力方面具有独特优势。Hirshleifer et al. (2025, ming)在对报纸中战争相关话语的分析中展示了这种持久的价值,他们使用主题模型提取报道中的系统性模式,以帮助预测资产回报。从宏观经济预测到公司治理,主题模型在金融领域的各种应用中持续取得成功,突显了它们作为整体文本分析工具的重要性。


4.8 嵌入技术


词嵌入和文档嵌入是自然语言处理技术的一项根本性进步,它通过生成能够捕捉文本中语义关系的密集数值表示来实现。与将单词视为独立单元的词袋方法或主题模型不同,嵌入技术通过将单词和文档映射到一个连续的向量空间中,从而保留上下文和语义,在这个向量空间中,相似的概念彼此位置相近。Mikolov et al. (2013)的开创性工作引入了具有影响力的word2vec模型,确立了后续嵌入技术所基于的核心原则。

现代嵌入方法经历了多代发展,复杂程度不断提高。早期的模型,如word2vec和doc2vec,专注于通过在大型文本语料库上进行神经网络训练来学习静态的词表示。在这些模型中,每个单词都获得一个固定的向量表示,而不考虑上下文——例如,“bank”(银行;河岸)这个词,无论它指的是金融机构还是河岸,都会有相同的嵌入表示。随后,更先进的基于变换器(transformer)的模型,如BERT (Devlin et al. (2018)) 和RoBERTa(Liu et al. (2019)),实现了上下文嵌入,能够根据单词在句子中的使用情况动态地表示单词。这些模型可以消除单词的多种含义的歧义,并捕捉语义上的细微差异——同一个单词“bank”,根据周围的上下文不同,会得到不同的向量表示。最近,像GPT这样的大语言模型中的嵌入能力进一步拓展了语义表示的前沿。虽然像GPT这样的大语言模型也可以将生成嵌入作为其架构的一个副产品,但它们的主要目的和训练目标与传统的嵌入模型有着根本的不同。本文将在下一节讨论这些生成式人工智能模型及其应用。

回到本文一直使用的示例,如果本文将嵌入函数表示为ϕ(·),本文会得到:


image.png


文档本身通常被表示为其组成部分(单词)嵌入的聚合形式:


image.png


其中k通常在100到2000之间,而f(·)可能是一个简单的平均值计算函数,或者是一个更复杂的聚合函数。

嵌入模型能够捕捉丰富的语义关系和上下文依赖关系,同时通过密集的向量表示来支持复杂的下游任务。它们的主要局限性在于所学习到的表示具有不透明性,以及嵌入空间中可能存在的时间不稳定性,尤其是在应用于历史金融文档时。

嵌入技术对于比较型(ROC - Comparative)研究目标特别有价值,因为与传统的余弦度量方法相比,它们能够进行更细致的文档相似度计算。例如,Hoberg and Phillips (2021)证明,与早期基于文本的方法相比,doc2vec嵌入技术将对公司之间产品市场关系的度量精度提高了20%到25%。性能提升的原因在于,即使使用不同的单词来表达相似的概念,嵌入技术也能够识别语义关系。

对于整体综合型(ROC - Holistic)研究目标,嵌入技术是进行下游分析的强大基础。Cong et al. (2019) 开发了一种创新方法,将嵌入技术与聚类相结合,从金融文本中提取可解释的因素。这种方法通过纳入单词的上下文信息,同时保持可解释性,解决了纯主题模型的一个关键局限性。同样,Hanley and Hoberg (2019)将word2vec嵌入技术与主题建模相结合,以比传统方法更高的敏感度跟踪金融领域的新兴风险。Lv (2024) 将句子嵌入分类为一组由研究人员定义的主题,然后将它们聚合到文档级别,以确保最终输出是可解释的。Sarkar (2024) 使用金融新闻的嵌入来衡量市场对公司的认知是如何随时间演变的,并研究这些变化与资产价格和分析师预测之间的关系。

嵌入技术在目标导向型(ROC - Targeted)任务中的应用也在不断增加,通常是通过混合方法来实现的。多项研究表明,使用经过专家精心挑选的种子词,并结合基于嵌入的扩展方法来识别特定概念是成功的。例如,Chen et al.(2022)采用这种技术来衡量机构在信息生产中的参与度,而Wu (2024) 将其应用于评估供应链风险敞口。更复杂的应用则利用上下文嵌入来衡量特定的概念:Jha et al. (2022)利用BERT对来自数百万本书籍中提及的“金融”一词进行嵌入,从而能够精确衡量数个世纪以来不同国家中社会对金融的态度。在资产定价领域,Jiang et al. (2022)利用上下文嵌入,比传统方法更精确地识别金融新闻中具有回报预测性的内容。这些应用展示了嵌入技术如何在保持目标导向型方法可解释性优势的同时,增强对特定概念的度量。

最近的研究越来越多地使用来自大语言模型的嵌入,不过在分析历史文本时,必须注意时间偏差问题 (Sarkar and Vafa (2024))。对于许多应用来说,像word2vec这样更简单的嵌入模型可能更可取,因为它们可以针对不同的时间段分别进行训练,既能避免前瞻性偏差,又能捕捉到嵌入技术所提供的大部分语义优势。

在实施过程中的关键考虑因素包括在静态嵌入和上下文嵌入之间进行选择、选择合适的训练语料库,以及处理未登录词(不在词汇表中的词)。虽然更复杂的嵌入模型通常性能更优,但它们也需要更多的计算资源和技术专业知识才能有效实施。因此,嵌入方法的选择应该同时考虑具体的研究目标和实际的限制条件。

对于静态嵌入(Word2Vec、Doc2Vec),gensim是最常用的Python库。对于上下文嵌入(BERT、RoBERTa、基于GPT的),Hugging Face Transformers是标准选择,它提供预训练或微调的检查点。Hugging Face社区往往能够快速融入该领域的创新成果。

展望未来,嵌入技术将继续快速发展,更新的模型将提供越来越细致的语义表示。然而,通过在连续向量空间中的几何关系来捕捉语义这一核心优势,仍然是其在所有研究目标类别(ROC)中发挥作用的关键。这一基本能力解释了为什么嵌入技术已成为许多现代金融领域自然语言处理应用中的重要组成部分,并且常常与其他技术结合使用以获得最佳效果。


4.9 生成式人工智能


生成式人工智能模型,也被称为“基于提示的大语言模型”,或许最准确的描述是“经过指令微调的语言模型”,它代表了自然语言处理领域的一项重大方法进步。这些模型的特点是能够通过自然语言指令来执行各种分析任务,而无需对模型架构进行特定任务的修改。尽管在学术和工业环境中术语有所不同,但其核心创新在于模型能够解释和执行以自然语言表达的复杂分析指令。

在本文一直使用的示例文本的情境下,本文可以向大语言模型提出这样的提示:

识别这段文本中的关键商业风险和增长机会,并为每一项提供具体证据。

该模型可能会生成如下结构化分析:


风险:

供应链限制影响利润率

半导体制造领域劳动力成本上升

宏观经济不确定性(利率、地缘政治)


机会:

云计算和支持人工智能的解决方案

通过收购SecureNet技术公司拓展网络安全市场

东南亚市场渗透


生成式人工智能模型在分析复杂叙述方面提供了前所未有的灵活性,并且能够执行复杂的推理任务。然而,在金融研究中部署这些模型面临着与可重复性、计算成本以及潜在的“幻觉”问题(即模型生成看似合理但实际上错误或无根据的内容)相关的挑战,尤其是在处理早于或晚于其训练数据的文档时。提示工程在一定程度上仍然像是一门艺术,但当研究问题狭窄且明确时,操作起来应该会更直接一些。

具有目标导向型(ROC - targeted)研究目标的研究人员可以直接向生成式人工智能模型提问以获取答案。随着支持结构化输出(例如JSON格式响应)的模型出现,这样做变得越来越容易。比较型(ROC - comparative)研究项目可以利用生成式人工智能模型的嵌入能力来比较文本。他们还可以提示模型指出或评估两个文档之间的差异和相似之处。

指令微调的理论基础源自变换器架构(Vaswani et al. (2017)),并通过在预训练目标和指令优化方面的大量创新得到了增强。像GPT - 3(Brown et al. (2020))这样的早期重要实现,通过规模展示出了涌现能力,在无需进行特定任务架构修改的情况下,在众多任务中都取得了出色的性能。虽然已经开发出了如彭博GPT(BloombergGPT,(Wu et al. (2023))这样针对金融应用的特定领域模型,但实证证据表明,像GPT - 4这样的通用模型在金融任务上也能取得相当的性能,这对特定领域训练必要性的假设提出了挑战。

值得注意的是,“大语言模型”中的“大”这个标签本质上是相对且暂时的。2018年推出的BERT模型有3.4亿个参数,与之前的模型相比,它被认为非常庞大。到2019年,GPT - 2的15亿个参数使BERT相形见绌,而2020年GPT - 3的1750亿个参数又让GPT - 2黯然失色。截至2025年撰写本文时,已经存在拥有数万亿个参数的模型,而且本文预计,在这篇综述发表时,本文目前认为“大”的模型可能看起来就很普通了。模型规模的这种快速增长既反映了计算基础设施的技术进步,也证明了更大的模型往往具有质的不同的能力这一实证证据。然而,传统嵌入模型和生成式人工智能模型的根本区别不在于它们的规模,而在于它们的训练目标、丰富的训练数据以及预期的使用场景。


实证证据表明,生成式人工智能模型在金融应用中具有显著的分析优势:

首先,这些模型在金融分析中展示出了复杂的上下文理解能力。Jha et al. (2024)记录了从财报电话会议记录中提取有关资本支出的前瞻性信号的过程,这些信号的预测能力可以延伸到九个季度。Kim et al. (2024) 在财务报表解读方面与专业分析师的表现相当,值得注意的是,这是在没有进行特定领域架构修改的情况下实现的。

其次,生成式人工智能模型为传统金融研究问题带来了新颖的方法途径。Lopez-Lira and Tang (2023)展示了通过精心构建的指令集从新闻内容中系统提取与市场相关信息的过程,而Fedyk et al. (2024) 证实了这些模型捕捉投资偏好中人口统计学异质性的能力。


在金融研究中应用这些模型需要仔细关注几个关键的方法学挑战:


• 前瞻性偏差:预训练过程可能会在不经意间将未来信息纳入历史分析中,从而使结果产生偏差。为了解决这个问题,Glasserman and Lin (2023)和Sarkar and Vafa (2024) 提出了严格的框架来分离时间信息,包括系统的屏蔽协议。需要注意的是,仅仅在超出模型“知识截止日期”的数据上验证结果是不够的。这种方法存在问题,因为许多封闭模型,如ChatGPT和Claude,会在初始训练期后根据收集到的人类反馈进行后续微调,特别是通过基于人类反馈的强化学习(RLHF) (Ludwig et al., 2025)。

• 方法可重复性:不同模型版本和指令集产生的输出存在差异,这对研究的可重复性构成了重大挑战。这凸显了需要有标准化的协议来规范提示的构建和模型的部署。研究人员至少应该通过将诸如“温度”(对于OpenAI模型)等参数设置为零来消除文本生成中的随机性,以确保输出的一致性和可重复性。使用如Meta的Llama这样的开源模型是另一种选择。

• 资源分配:实施这些模型需要大量的计算基础设施。然而,它们有可能通过减少对传统数据收集方法的依赖来简化研究工作流程,从而提高金融分析的效率。


在使用这些模型时,一个重要的方法学考虑因素是它们的训练目标:为了获得人类认可而进行优化,而非追求客观准确性。这些模型从根本上是为了生成能让人类评估者满意且信服的回复而进行训练的。这种训练范式引入了潜在的方法学问题,尤其是在分析情境中。当被要求解释其推理过程或为其输出提供依据时,这些模型可能会生成听起来合理且符合评估者期望的解释,而不是反映其实际的计算过程。这一特点需要谨慎的验证协议,并且表明模型生成的解释应被视为假设,而非确定的分析见解。

生成式人工智能模型的方法学影响超出了直接的分析应用范围。Kazinnik (2023) 使用一个大语言模型来模拟银行挤兑期间储户的行为,利用生成式人工智能创建与实证研究相符的合成数据。这种方法凸显了生成式模型在经济情境中为理解人类行为提供见解的潜力,为分析假设情景和为政策沟通策略提供信息提供了一种经济高效的方法。Novy-Marx and Velikov (2024)提出了关于研究方法的重要考量,特别是关于假设生成和测试程序的自动化方面。这表明需要将这些模型仔细整合到现有的研究框架中,而不是进行全面的方法替代。

研究人员可以通过API(openai或anthropic的Python客户端)访问像GPT - 4或Claude这样的大语言模型。对于开源模型(如Llama、Bloom等),Hugging Face Transformers提供了推理管道(pipeline("text-generation"))。

展望未来,生成式人工智能为金融研究中的方法创新提供了重大机遇,特别是在需要复杂上下文推理的任务中。事实上,Eisfeldt and Schubert (2024)已经发现,生成式人工智能的发展和应用正在推动金融研究(以及公司)发生重大的技术变革。然而,要实现最佳应用,需要仔细考虑方法的严谨性和系统的验证协议。


4.10 命名实体识别


尽管命名实体识别(NER)技术在解决金融领域问题方面潜力巨大,但它在金融领域的应用仍处于起步阶段。这在一定程度上可能是因为命名实体识别技术只是在最近才在质量上有了足够的提升,从而能够切实提高研究人员的工作效率。

一个命名实体识别系统可能会将本文一直在使用的示例文本分解为结构化的实体注释:


image.png


命名实体识别能够从非结构化文本中精确提取结构化信息,有助于对特定类型的实体进行定量分析。然而,它的实用性受到预定义实体类别的限制,并且在捕捉已识别实体之间的复杂关系时可能会遇到困难。当这种方法与其他能够在更广泛的分析框架中利用所提取的结构化信息的方法结合使用时,效果最为显著。

提高效率的一个方法是开发相关方法并共享代码,例如Shah et al. (2023)以及Hilt and Schwenkler (2024)所做的那样。前者建立了一个新的金融数据库,可用于评估命名实体识别算法,并确定Snorkel平台的性能最佳。后者使用了R语言中cleanNLP库中可用的spaCy命名实体识别算法。Hilt and Schwenkler (2024)在报纸文章中使用命名实体识别技术,构建了一个与新闻相关公司的动态网络。这符合金融经济学中把公司名称识别为实体的标准目标。该研究展示了所构建的网络识别高风险时期的能力。使用知名研究人员的代码是一种“良好实践”,因为这些代码带有记录在案的性能指标和既定的用途。

另一个出色的应用案例是识别行业协会网站中提及的公司名称。Hoberg and Neretina (2023)使用在Python中实现的Flair SequenceTagger模型来完成这项任务(见Akbik et al. (2019))。有趣的是,鉴于上述对报纸的使用,Flair是使用CoNLL - 2003命名实体识别数据集(Tjong Kim Sang and De Meulder (2003)) 进行训练的,该数据集包含许多路透社的报纸文章。在这种情况下,通过人工审核辅助的命名实体识别程序,能够确定哪些公司可能是哪些行业协会的成员。然后,作者研究了行业协会成员身份对一系列公司经营结果的影响。Ferrell et al. (2021)是另一个使用类似命名实体识别技术的例子,这次是为了检测律师事务所网站上提及的律师和员工的姓名。

许多早期的研究使用模糊匹配来识别名称。这里提到的方法是这种方法的更先进版本,也许最值得注意的是,更先进的工具能够在诸如报纸或公司网站等自由格式文本中识别命名实体。尽管技术有所进步,但命名实体识别技术仍是一种本文预期未来研究将继续改进的技术。例如,截至目前,即使是这些更先进的技术,成功率也达不到90%。因此,将更先进的技术与人工输入和质量控制相结合,可能是一种最佳实践。

最后,本文注意到命名实体识别技术也被用于识别公司以外的实体。例如,Cohen and Nguyen (2024)在电话会议记录中识别产品、金额和百分比等实体。这使得作者能够识别和评估公司改变其业绩目标所带来的后果,他们随后发现这会导致股票出现负的异常收益。


4.11 视觉与语音分析


机器学习领域的最新进展使得对包括录音和视觉内容在内的非文本数据源进行复杂分析成为可能。这些数据模态为金融市场和公司行为提供了独特的见解,对传统的文本分析起到了补充作用。

语音分析已成为从财报电话会议和其他公司沟通内容中提取信息的强大工具。Mayew and Venkatachalam (2012) 率先在这一领域展开研究,他们通过分析财报电话会议中管理层情绪状态的语音标记,发现积极的情绪标记可以预测公司未来的业绩。在此基础上,Hobson et al. (2012)证明语音线索有助于检测财务报表错报,这表明语音分析能够捕捉到仅从文字记录中难以察觉的欺诈行为。最近,Gorodnichenko et al. (2023) 将语音分析扩展到货币政策领域,通过研究美联储的沟通内容,展示了央行官员讲话的语音特征如何在其书面内容之外,提供有关政策意图的额外信号。

视觉分析是金融领域机器学习的另一个前沿方向。Hu and Ma (2021)分析了管理层演示的视频记录,以了解视觉线索如何影响投资者的决策。他们的研究表明,即使在控制了演示内容的信息含量的情况下,非语言沟通渠道也会对投资选择产生重大影响。从更大的范围来看,Mukherjee et al. (2021) 展示了如何利用卫星图像生成新颖的宏观经济指标,突显了视觉数据在提供对经济活动的实时洞察方面的潜力。Curti and Kazinnik (2023)将面部识别分析应用于联邦公开市场委员会(FOMC)新闻发布会的视频,量化了美联储主席的面部表情对投资者预期的影响。他们发现,即使考虑了口头沟通的因素,负面表情仍会对市场反应产生不利影响,这强调了非语言线索在金融市场中的重要性。

将多种数据模态(文本、语音和视觉)结合起来可能会产生特别强大的效果。Ludwig and Mullainathan (2024)展示了整合不同类型的数据如何改善金融研究中的假设生成。他们的方法表明,跨模态分析能够揭示出当单独研究每种模态时可能不明显的模式和关系。

语音和视觉分析在实施过程中面临的关键挑战包括:

• 数据的可用性和质量,尤其是对于历史记录数据

• 处理大规模视频和音频数据的计算要求

• 需要音频和视觉处理技术方面的专业知识

• 不同人口群体在视觉和语音特征方面可能存在的偏差

Python中的pyAudioAnalysis或librosa库可以辅助进行语音/情感语音分析;OpenCV或Pillow库则用于图像处理。现代的解决方案通常会将这些库与深度学习框架(如PyTorch、TensorFlow)相结合,以处理多模态自然语言处理任务。

展望未来,将语音和视觉分析与传统的基于文本的方法相整合,有望使本文对金融市场和公司行为有越来越细致入微的理解。随着计算能力的不断提升,这些数据模态很可能会成为金融研究人员工具包中的标准组成部分。


05
公司金融


本文简要总结一下,在公司金融领域的文献中,那些借助新颖技术和自然语言处理工具所做出的关键贡献。这个总结并非是对公司金融中所有基于自然语言处理的贡献的全面回顾,因为鉴于篇幅限制,无法做到面面俱到。相反,本文挑选了一些针对性很强的讨论内容,以展示这些新技术如何在主要领域发挥作用,并提供一些与本文上述研究目标框架相关的例子。本文还会阐述关于这些技术如何能更显著地加速研究进展,并解决以往无法解决的新问题的关键设想。


5.1 信息披露、监管与发行


公司金融领域许多最早的研究贡献都集中在信息披露和信息环境方面。这是必要的,因为研究人员必须首先理解大型文本语料库的信息内容,然后才能将其应用于解决此后众多的理论问题。早期的研究人员记录了文本内容以及这些内容如何随时间动态变化。Hanley and Hoberg (2010)使用余弦相似度研究了首次公开募股(IPO)招股说明书的内容,并说明了这些内容与IPO定价之间的紧密联系,Ball et al. (2015)则使用更先进的主题模型技术(潜在狄利克雷分配,LDA)对10-K报告进行了相关分析。Brown and Tucker (2011)探讨了10-K报告中管理层讨论与分析(MD&A)部分的内容随时间的变化速率,并记录了其与驱动信息披露变化的基本面变化之间的紧密联系,不过Dyer et al. (2017)后来使用主题模型表明,模板化内容也在不断增加。这些研究是比较型(ROC-comparative)和整体综合型(ROC-holistic)研究目标的典型例子,因为有些研究基于大量文档的比较,而另一些则基于对语料库信息内容的整体评估。

Loughran and Mcdonald (2011) 确立了使用由专家精心编制的词表,从金融解读的角度来识别情感倾向。情感倾向可能是文本内容中研究最多的特征,作者记录了情感倾向与诸如欺诈、重大缺陷和风险等经济问题的相关性。Li (2008)以及Loughran and Mcdonald (2014)类似地评估了文档的可读性。前者表明,雾度指数与收益及其持续性相关,而后者对雾度指数提出了质疑,并指出文档长度可能更具相关性。Bonsall et al. (2017)随后提出了一种基于内容语法属性的新方法。这些都是目标导向型(ROC-Targeted)研究目标的基础示例,因为情感倾向、可读性、长度和语法都是重要的文档特征。

值得注意的是,这一领域的文献通常同时涉及公司金融和会计学,因为信息环境对于这两个学科所关注的问题都至关重要,比如理解收益质量、欺诈的普遍性,以及公司筹集资金和避免诉讼的能力。Hanley and Hoberg (2012)说明了信息披露在降低IPO诉讼风险方面的作用,并且与Brown and Tucker (2011) 和Cohen et al. (2020b)(他们研究了市场对信息披露变化的缓慢反应)一样,都是展示如何使用向量表示来模拟文档修订程度的很好例子。本文注意到,文档修订是比较型研究目标的一个核心内容。这些例子很好地展示了如何使用比较型方法,通过文档修订来为重要的经济结果提供信息。

随着自然语言处理工具质量的提高,许多研究试图考察文本披露的整体信息含量。Ball et al. (2015) 对10-K报告的MD&A部分使用了LDA模型,并证明其在解释估值方面具有很强的能力。Dyer et al. (2017) 使用主题模型重新研究了整体披露质量随时间的变化情况,并发现了模板化内容增加的证据。最后,Hoberg and Lewis (2017)使用主题模型,通过美国证券交易委员会(SEC)的文件,确定了一组最能预测哪些公司会实施欺诈行为的主题。

由于许多信息披露都受到监管,更多的研究探索了监管在确保高质量信息披露方面的有效性。Lang and Stice-Lawrence (2015) 记录了监管程序如何在国际上提高信息披露质量,Lowry et al. (2020) 详细研究了美国证券交易委员会评论信的作用机制。Kalmenovitz and Chen(2020) 和Kalmenovitz (2023)衡量了监管的影响,前者关注监管强度,后者关注监管碎片化问题。然而,Bourveau et al. (2020)认为,增加信息披露并不总是有益的,因为这也可能助长与监管机构相关的不良行为,比如合谋。最后,Cao et al. (2023a) 指出,公司可能会因为知道其披露的信息不仅会被人类处理,还会被机器处理,而改变信息披露内容。


5.2 产业组织


本节探讨自然语言处理技术对产业组织研究的影响,重点关注行业竞争、互补产品市场关系、垂直关系以及范围经济。这一领域值得关注,因为它较早地采用了自然语言处理方法,并且该领域的研究成果影响重大。其产生影响力的一个关键因素是,在商业研究中,无论是将行业概念作为核心研究主题,还是仅仅为了控制行业效应(众所周知,行业效应是首要因素),都广泛需要对行业概念进行建模。

该领域取得成功的第二个基础是文本数据的质量和可获取性。有大量关于产品市场的文本,例如上市公司每年向美国证券交易委员会报告的项目1中的业务描述。这些文件是强制性提交的(因此不存在选择偏差),并且完整涵盖了自20世纪80年代末以来的美国上市公司(通过长时间序列数据具有很强的说服力)。在使用自然语言处理技术之前,行业数据的主要来源是政府分类系统,如标准产业分类(SIC)和北美产业分类系统(NAICS),这些分类系统存在以下问题:(A)即使公司和行业的变化非常动态,它们也不会频繁更新;(B)在处理部分相关性方面缺乏灵活性;(C)它们是通过手动流程获取的,并且信号强度有限。除了美国证券交易委员会的文件之外,其他研究还通过公司网站提取行业信息以涵盖私营企业,使用路孚特(Refinitiv)的简短业务描述来涵盖外国公司,并利用各种国际监管数据库来扩展分类。

Hoberg and Phillips (2016)以及Hoberg and Phillips (2010) 首次将自然语言处理方法引入这一领域,他们使用10-K报告项目1中文件之间的余弦相似度,构建了基于动态文本的行业分类(TNIC)数据库。Hoberg and Phillips (2021) 使用doc2vec嵌入技术对这一比较型研究框架进行了改进,使信号强度提高了20%至25%。尽管存在更大的语言模型,但doc2vec(与其他嵌入算法不同)的优势在于可以很容易地每年分别进行训练。这确保了最终得到的行业分类不会受到前瞻性偏差的影响,而使用如GPT等基于近期数据训练的模型可能会产生这种偏差。鉴于行业分类在公司金融和资产定价研究中应用如此广泛,在这个领域小心避免前瞻性问题尤为重要,因为这可以避免对其他使用生成的行业数据的研究人员产生意外的负面外部效应。

不断增多的文本形式的行业数据已经以重要的方式扩展到了美国上市公司之外。Hoberg et al. (2024) 将数据库扩展到包括自2000年至今多达一百万家私营企业的公司网站信息,Fr´esard et al. (2020) 将该框架扩展到包括垂直关系,Breitung and M¨uller (2023) 使用路孚特的简短业务描述以及基于GPT的嵌入技术(即使对于这些简短描述也表现良好),将该框架扩展到包括国际竞争对手。这些作者指出,屏蔽技术应该能显著减轻与GPT相关的前瞻性问题。Hoberg et al. (2014)从TNIC空间数据库中提供了动态产品市场流动性的度量方法。所有这些参考文献中的研究都是典型的比较型研究项目,它们表明,对业务关系进行空间建模是一种全新的丰富资源,可以在动态环境中解决许多重要的理论问题。

其他研究在结构模型中使用基于文本的行业分类来研究公司利润和利润率随时间的变化(Pellegrino, Bruno (2022))。还有一些研究使用相关的数据资源,如8-K报告来研究供应链风险(Wu (2024)),有的使用文本研究供应链通胀问题(Chava et al. (2022)),还有的使用字符串搜索方法来获取对竞争影响的直接提及信息(Li et al. (2013))。除了创建度量方法之外,基于文本的行业数据还丰富了对美国公司如何应对来自中国的竞争的研究 (Hombert and Matray (2018))、对公司在同行股价变化后进行投资的研究(Foucault and Fresard (2014)),以及对贸易信贷和供应商竞争的研究(Chod et al. (2019))。


5.3 投资与财务约束


运用新技术来研究投资和财务约束的文献数量众多且还在不断增加。部分原因在于,人们越来越意识到自然语言处理(NLP)工具能够衡量许多以往无法衡量的、在理论上很重要的概念。其他一些研究则专注于改进对现有概念的衡量,或者研究人工智能本身在公司经营结果中所起的作用。这一领域的研究目标高度侧重于目标导向型(ROC-Targeted)和比较型(ROC-Comparative)目标,其关键目标是衡量那些使用以往研究工具无法衡量的概念。


5.3.1 公司投资与并购

Hoberg and Phillips (2010)的研究是该领域最早运用自然语言处理技术的研究之一,展示了衡量以往无法衡量的概念的重要意义。先前文献中的一个关键空白是,缺乏将产品市场协同效应作为关键并购动机的直接证据。这项研究使用了上述基于文本的行业分类(TNIC)中行业表征的基本余弦相似度,结果表明,在产品市场中,作为互补关系(相似度较高但又不是过高)的公司之间的并购,比作为替代关系(相似度非常高)的公司之间的并购要常见得多。该研究还记录了,随着产品协同效应的实现,文本形式的业务描述的篇幅也会增加。Fr´esard et al. (2020) 在这一研究方向上进行了拓展,他们记录了与成熟创新商业化相关的垂直整合协同效应,但不包括早期阶段的创新。这项研究将来自美国经济分析局的与垂直相关词汇的数据引入了TNIC平台。Bernile and Lyandres (2019)以不同的方式拓展了这方面的文献研究,他们通过对报纸文章进行文本搜索,提取出了预测的运营协同效应和成本削减信息。与上述比较型研究不同,这项研究属于目标导向型研究,因为它从语料库中寻找高度特定的内容,并非基于文档比较。

除了并购研究之外,还有一些研究更广泛地探讨了投资及其决定因素。Jha et al. (2024)的研究展示了前沿衡量方法的潜力,他们使用ChatGPT从电话会议记录中提取信息,这些信息能够预测未来长达9个季度的资本支出。 Baker et al. (2016) 运用锚定短语方法,从报纸中衡量经济政策不确定性,该方法通过识别包含分别来自“不确定性”“经济”和“政策”这三类词汇的段落来进行分析。Hassan et al. (2019) 在电话会议记录中,使用与讨论政治相关且与风险词汇相邻出现的双词组合,确定了与公司特定相关的衡量指标。这是将锚定短语方法应用于双词组合列表的另一个例子,在这个例子中,是通过基于模式的序列识别来编制列表的。作者发现,那些更多暴露于经济政策不确定性下的公司,面临的风险会增加,投资会减少。这些研究都明确属于目标导向型研究范畴。


5.3.2 财务约束

财务约束的研究在公司金融领域具有开创性意义,至少可以追溯到Kaplan and Zingales (1997)的研究。这项早期研究早于自然语言处理工具在金融领域的出现,作者手动查阅了少量的10-K报告,基于回归模型构建了一个指数。尽管在当时具有开创性,但将这种方法与现代技术对比,凸显了技术给研究带来的巨大进步。在基于自然语言处理的研究出现之前,该领域其他值得注意的研究包括Hadlock and Pierce (2010)的研究,他们在Kaplan and Zingales (1997)研究的基础上进行了拓展,强调了公司规模和年龄的作用;以及Whited and Wu (2006)的研究,他们使用结构模型来衡量财务约束,并表明受到财务约束的公司能够获得更高的回报。在这一领域,许多研究提出的核心问题很简单:给定的一家公司是否面临财务约束?这一系列的研究问题与运用目标导向型自然语言处理方法是一致的。

Hoberg and Maksimovic (2015)的研究首次将自然语言处理技术引入这一领域,他们使用精确的锚定短语查询来识别表明存在财务约束的直接陈述。具体来说,作者搜索与“延迟”及其同义词相关的术语,这些术语要与某种投资的提及紧密相邻出现。此外,任何符合该查询条件的内容,必须出现在公司对流动性的讨论中,而这种讨论通常出现在10-K报告的管理层讨论与分析(MD&A)部分。这种方法在很大程度上依赖于高度准确的文档解析,能够检测10-K报告主要部分中的子部分,这是一项具有挑战性的任务,而metaHeuristica平台在这方面表现出色(这个工具为许多其他需要快速查询、准确文档解析以及尽早接触新兴技术的研究项目提供了帮助)。在讨论资本流动性不足时提到需要延迟投资,这正是财务约束的本质,体现了在这种情况下目标导向型方法的清晰性和有效性。作者还能够通过进一步丰富锚定短语查询,分别衡量股权和债务方面的财务约束,从而进一步拓展关于财务约束的讨论。

其他使用先进技术衡量财务约束的研究包括Buehlmaier and Whited (2018) 的研究(同样使用了锚定短语查询),他们研究了财务约束对资产定价的影响;Bodnaruk et al. (2015)的研究,他们使用词表方法来衡量财务约束;以及Linn and Weagley (2019)的研究,他们使用机器学习扩展了Hoberg and Maksimovic (2015)提出的衡量方法。后一项研究带来了一种新颖的技术视角,即文本对于解决某些问题可能并非必需,因为他们使用机器学习技术将现有的财务约束衡量指标投射到一系列会计变量上,这使得作者能够将样本时间大幅回溯到文本数据可用之前。这也使得作者能够补充横截面数据,纳入那些由于技术限制而未包含在原始样本中的观测值。

总体而言,这些研究表明,技术增强方法的丰富组合以及多个研究团队的合作,能够为解决一个重要问题提供一系列强大的实证工具。这些研究还得出了许多重要的经济结论,包括对金融危机有了更深入的理解,认识到试图筹集高成本股权资本的创新型公司面临着最严重的财务约束,信息摩擦可能起到了一定作用,并且财务约束对资产定价回报也有着显著影响。


5.4 创新


自然语言处理(NLP)技术在研究中的应用本身就是一种创新。因此,这些工具被广泛用于研究创新这一主题也就不足为奇了。

这一领域的研究通常聚焦于专利语料库,并根据重要特征对专利进行评分,以实现目标导向型(ROC-targeted)的研究目标。早期的研究根据创新性对专利进行评分。例如,Packalen and Bhattacharya (2015)使用专利语料库中词汇的首次出现情况来评分。Bena et al. (2022) 根据专利是否专注于流程创新或非流程创新来评分。他们通过检查专利权利要求中是否提及诸如“一种……的方法”或“一种……的流程”等关键条款来进行判断。 Bowen et al. (2023)通过根据单个词汇在整个专利语料库中逐年增长的速度来评分,研究快速兴起的技术。他们发现,拥有高增长词汇专利的初创企业通过首次公开募股(IPO)退出,而拥有低增长词汇专利的初创企业则通过并购退出。

其他研究使用更先进的技术来研究创新。Kelly et al. (2021b) 通过检查专利与未来专利的文本相似度相对于其与过去专利的相似度,来判断专利是否属于突破性专利并进行评分。这种方法属于比较型(ROC-comparative),需要对专利文本和动态词汇进行大量比较。Acikalin et al. (2022)使用基于变换器(transformer)的嵌入模型,并训练了一个机器学习模型,以预测哪些专利会受到美国最高法院“爱丽丝诉CLS银行案”的影响,该案件取消了许多方法专利的专利保护。作者发现,知识产权保护的损失显著损害了较小企业的竞争地位,这可能是因为它们的进入壁垒有限;而较大的企业则没有遭受损失,甚至还获得了适度的收益,这很可能是以牺牲较小的竞争对手为代价的。

Chen et al. (2019) 采用了一种针对特定行业的方法,根据专利在金融科技领域的相关程度进行评分。他们基于专利所涉及的金融科技技术类型,手动对1000项专利进行分类,然后在第二阶段使用机器学习算法,利用训练样本对规模大得多的67,948项专利样本进行评分。考虑到已知类别的存在,这是一种新颖的方法。作者接着记录到,金融科技创新为发明者带来了正价值,但往往对行业估值产生负面影响。

其他文章使用专利语料库以外的语料库来研究创新。Bellstam et al. (2021)对分析师报告使用潜在狄利克雷分配(Latent Dirichlet Allocation)模型,通过从这些文档中提取专注于创新的核心主题来衡量创新。他们的创新衡量指标能够预测未来的业绩和增长机会。Hoberg and Maksimovic (2022)使用10-K报告,根据公司产品处于产品生命周期四个阶段中每个阶段的程度对公司进行评分,其中产品创新是第一阶段,流程创新是第二阶段。作者发现,当托宾Q值(Tobins’ Q)模型根据事前的生命周期阶段来确定其预测关系时,观测到的投资与托宾Q值之间的关系显著更强(并且对投资类型具有参考意义)。最后,Liu et al. (2021) 研究了加密货币白皮书,并使用机器学习来衡量加密货币的技术复杂程度。作者发现,技术上更先进的货币在上市前能获得显著更高的初始回报,但随后表现不佳,这与市场过度反应的情况相符。


5.4.1 劳动力与人工智能

一些研究考察了人工智能本身对公司金融结果的影响,并且通过使用人工智能技术来推动研究。Babina et al. (2024)的研究是这一领域的早期成果,作者首先开发了一种衡量公司层面人工智能暴露程度的方法,这是至关重要的第一步。他们首先确定表示核心人工智能技能的术语:人工智能、机器学习、自然语言处理和计算机视觉。然后,他们检查由Cogism和Burning Glass公司在现有劳动力数据库中列出的所有工作技能,并考察每种技能与这些核心术语同时出现的程度。结果得出了技能层面的人工智能暴露程度,然后可以汇总到职业和公司层面,从而有助于针对性地衡量每家公司在人工智能方面的投入(Cogism和Burning Glass公司的数据通过简历和职位发布数据提供了基础)。这种方法表明了一种策略,即利用Cogism和Burning Glass公司在人工智能领域已有的专业成果,根据简历对全球5.35亿个人的就业历史以及1.8亿个职位空缺进行分类。这一结果具有很强的说服力,作者发现人工智能公司增长更快,市场估值更高,而且值得注意的是,增长尤其集中在较大的公司,并且人工智能带来的增长与更高的行业集中度相关。同一作者的其他研究(Babina et al. (2023))表明,劳动力构成本身正在向科学、技术、工程和数学(STEM)领域以及受教育程度更高的员工转变,同时也朝着扁平化的层级结构发展。

这一领域的另一项研究,Jiang et al. (2021)的研究,特别关注人工智能在金融科技领域的作用。这些作者借鉴了Chen et al. (2019) 早期基于金融科技贡献对专利进行分类的研究成果,首先从这些专利的标题和摘要中提取关键词以开发关键术语。然后,作者使用相似度分析(比较型研究方法)根据金融科技暴露程度对职位描述以及职业进行评分,从而有助于衡量金融科技领域的招聘情况。这些作者发现金融科技公司的招聘数量有所下降,但也发现招聘情况并不均衡。例如,拥有金融和技术经验的员工职位空缺增加,这表明存在互补和替代效应。

上述所有研究都得益于比公司金融领域许多其他研究更为复杂的研究流程。特别是,这些方法策略不仅得益于Cogism和Burning Glass等专业数据提供商优化的人工智能和自然语言处理技术,还得益于其他学者先前的研究成果(如Chen et al. (2019) 的专利分类),以及他们自己在自然语言处理方面的原创性研究。这类研究体现了本研究作者的一个关键预测:随着时间的推移,金融领域一些最具影响力的研究很可能会得到更大规模、更具跨学科性的团队的推动,这些团队可能还包括行业合作伙伴。


5.5 公司金融领域的新兴研究方向


如前所述,由于先进技术在公司金融领域产生的影响极为广泛,本文的研究不可能对该领域的所有文献进行全面总结。在本节的结尾,本文将概述一些在未来几年可能会蓬勃发展的代表性研究领域。

一个关键的例子是风险管理研究。在这一领域,各种各样的研究目标推动了重要研究成果的产生,而这些成果很可能会激发更多的研究。例如,对特定运营对冲策略的衡量 (Hoberg and Moon (2017))、经济政策不确定性(Bloom et al. (2020) and Hassan et al. (2019))、产品市场竞争风险 (Hoberg et al. (2014))以及金融不稳定风险(Hanley and Hoberg (2019))。与财务约束的研究情况类似,由metaHeuristica平台支持的精确锚定短语技术,对第一项研究实现目标导向型(ROC-targeted)的研究目标起到了关键作用。在第二项研究的目标导向型框架中使用了定制的锚定短语方法,第三项研究使用了基于TNIC平台的比较型(ROC-comparative)研究方法,而最后一项研究则采用了基于主题模型和word2vec嵌入技术的整体综合型(ROC-holistic)研究方法。

其他令人关注的领域包括企业文化(Li et al. (2021))和监管影响(Kalmenovitz et al. (2021) 和 Kalmenovitz and Chen (2020))。由于存在潜在的混杂因素,以及与这些主题各自基础相关的复杂性,对这些主题进行衡量尤其具有挑战性。第一项研究将嵌入技术与机器学习技术相结合,专注于在财报电话会议记录中识别与文化相关的内容。第二项研究采用整体综合型研究方法,使用潜在狄利克雷分配(Latent Dirichlet Allocation)模型来量化庞大的《联邦公报》语料库的内容,以衡量监管碎片化这一复杂主题,然后通过对公司年度报告使用LDA模型,将相关影响映射到公司年度层面。第三项研究采用比较型研究方法,从两两公司的层面确定两家公司面临相同监管的程度,记录了公司协同变动中无法用其他形式的相似性解释的独特因素。

最后一个例子是与公司间网络连接以及政治经济学相关主题的研究。除了上述经济政策不确定性(EPU)的概念(这是对政治经济学研究的一项基础性贡献)之外,Goldman et al. (2024)使用大量报纸文章和基于情感倾向的框架,研究了政治极化在金融新闻中的作用及其对股票价格的影响,而Hoberg and Neretina (2023) 则使用网站数据和实体识别技术,探索了行业协会在塑造公司金融策略和经营结果方面的作用。因此,这些研究采用了目标导向型研究方法。

本文认为,这些领域具有继续深入研究的巨大潜力。从更广泛的角度来看,本研究的作者认为,就技术增强型研究将为公司金融研究带来的发展和潜力而言,该领域仍处于早期阶段。


06
资产定价


自然语言处理(NLP)正在革新实证资产定价领域,它使研究人员能够系统地分析大量可能影响资产价值的定性信息。这些信息包括新闻文章、公司披露文件、社交媒体帖子以及其他文本数据,它们能够为投资者情绪、信息传播和市场效率提供深刻见解。相关文献已从简单的基于词典的方法发展到复杂的机器学习技术,这与自然语言处理领域更广泛的进展相呼应。

金融经济学中一个常见的零假设是,市场在信息方面是有效的Fama (1970)。在这样的市场中,价格反映了投资者可获得的所有信息。从Fama et al. (1969)的研究开始,大量的研究工作探讨了资产价格如何对新信息做出反应,以及这些信息是如何融入价格之中的。对有效市场假说的检验要求计量经济学家观察边际投资者信息集的变化。因此,自然语言工具在金融领域最早的一些应用,很自然地涉及到对以新闻文章和公司公告形式向公众发布的信息进行更精准的度量。

事实上,衡量投资者可获得的信息集是现代资产定价的基石之一。Cochrane (2005)所强调的资产定价的随机折现因子/广义矩方法观点假定,产生未来收益xt+1的资产在t时刻的均衡价格pt可以表示为一个条件期望,


image.png


其中mt+1是一个随机折现因子。重要的是,该期望是基于投资者在t时刻可获得的信息ft来计算的。Hansen and Richard (1987)的一个核心观点是,无法观测到经济主体的条件信息集是检验条件资产定价模型的一个根本性挑战。因此,即使本文能够观测到随机折现因子,由于本质上无法获取经济主体的完整信息集,这使得对均衡资产定价模型的实证检验存在问题。

一些将自然语言应用于宏观资产定价的早期研究成果丰硕,它们利用新闻报道等文本数据来衡量风险和风险溢价。本文将在下面按照研究主题对这些文献进行综述。


6.1 短期收益可预测性


源自文本信息的收益可预测性,既可以反映对信息的理性反应,也能体现信息处理过程中的行为偏差。利用文本预测收益是目标导向型(ROC-targeted)研究的一个典型例子。Niederhoffer (1971)记录了报纸头条报道的重大新闻事件能够预测股票价格走势。这项早期研究采用了一种可能是最简单的显著性衡量方法,即头条的大小,来识别重要新闻。但这项早期研究启发了一系列探讨金融市场如何处理文本信息的文献。

Antweiler and Frank (2004)分析了股票留言板,结果表明在线讨论量能够预测股票的波动性和交易活动。Das and Chen (2007)研究了关于股票的留言板帖子,开发了从互联网讨论中提取情感倾向的方法,并表明留言板的总体情感倾向与股票指数水平、成交量和波动性相关。

Tetlock (2007)研究了《华尔街日报》“市场动态”(“Abreast of the Market”)专栏的每日内容,发现媒体的高度悲观情绪预示着市场价格将面临下行压力,随后会回归基本面。高度或低度的悲观情绪也能预测交易量的增加。这些模式与噪声交易理论而非基本面信息理论相一致。

Garc´ıa (2013)研究了1905年至2005年《纽约时报》的金融新闻,记录表明新闻内容在经济衰退期间,尤其是在经济衰退初期,对股票收益的预测能力更强。这种状态依存性表明,在不确定性和市场压力时期,情绪效应会被放大。

Jiang et al. (2019)从公司财务披露文件中构建了一个情感指数,发现该指数与未来收益呈负相关。其预测能力超过了传统的情感衡量指标,并且对于难以估值的公司,这种预测能力更强。

Chen et al. (2022) 分析了“ Seeking Alpha”网站上的帖子,表明用户生成的内容能够预测未来收益和盈利惊喜。Garc´ıa et al. (2023)开发了一种机器学习方法来生成金融领域特定的情感词典,结果表明金融文本中的色彩词汇能够预测股票价格走势。

情感倾向可以反映经济基本面变化的积极程度以及市场对公司的态度,但它也可能反映出文本作者的偏见或出版物的倾向性。例如,在目标导向型研究的一个经典案例中,Dougal et al. (2012)利用《华尔街日报》专栏作家的外生排班安排,来确定财务报告与股票市场表现之间的因果关系。他们发现金融记者会放大或减弱当前的市场情绪。

Dim et al. (2023)认为,由媒体偏见驱动的收益波动性与价格信息含量呈负相关。他们使用主题模型来衡量股票收益对媒体叙事的暴露程度,以此作为媒体偏见的代理变量,并为这一机制找到了支持证据。


6.2 对信息的缓慢调整


一些文本信息似乎是逐渐融入到资产价格中的,这表明投资者的注意力和信息处理能力存在局限。Peress (2014)通过利用全国性报纸罢工这一事件,记录了媒体对交易量和价格波动性的因果影响。他使用精确的锚定短语查询,根据媒体报道文本识别出罢工事件,并发现媒体通过改善信息在投资者之间的传播以及信息融入股票价格的过程,对股票市场的效率起到了促进作用。Manela (2014)建立了信息传播如何影响资产价格的模型,使用媒体对药品获批的报道来衡量信息传播速率。这个目标导向型分析的例子通过在文本中搜索独特的药品名称来衡量媒体曝光度。分析表明,信息的价值在其未来传播速率方面呈驼峰状,并且估计的噪声交易量较小。这些发现有助于解释信息传播速度与价格发现之间的关系。

Boudoukh et al. (2018) 使用一种名为“VIP”的文本回归方法来识别与个股相关的新闻。该论文利用文本内容的丰富性,解决了一个长期存在的难题,即市场模型的\(R^{2}\)值在有新闻和无新闻的日子里是相似的 (Roll, 1988)。通过使用相关新闻集,他们发现当能够正确识别相关新闻时,股票价格走势与这些信息的到来密切相关。

Hoberg and Phillips (2018)表明,基于文本的行业动量能够捕捉到关于类似公司的信息逐渐传播的情况。Cohen et al. (2020b)研究了10-K和10-Q报告中语言的变化,发现那些披露语言在年度间有显著变化的公司,未来收益为负。做空那些文本内容有较大变化的公司的投资组合,每年能获得超过22%的异常收益,并且价格不会立即做出反应。Fedyk (2024) 使用彭博终端数据研究了新闻的位置,记录表明与类似的非头版内容相比,头版新闻的交易量更高,超额收益也更大。

最后三个例子是比较型(ROC-comparative)研究方法的突出案例,当金融经济学家对相对于反事实的未处理观测值的处理效应感兴趣时,这些方法就很有意义。例如,Fedyk (2024) 使用机器学习来衡量新闻的重要性,包括使用主题模型比较新闻所涵盖主题的分布情况,以及基于新闻标题文本的深度学习分类器来判断新闻的重要性。新闻的相似性是该论文将收益差异归因于新闻是否出现在头版的关键所在。


6.3 风险与不确定性度量


文本分析有助于度量各种形式的风险和不确定性。Baker et al. (2016)构建了一个基于新闻的经济政策不确定性指数,该指数能够预测投资、就业和产出情况。Manela and Moreira (2017)通过分析1890年至2009年《华尔街日报》的头版内容,开发了一种基于新闻的不确定性和罕见灾难担忧的度量方法。他们基于新闻的波动率指数(VIX)能够预测未来的波动性,并捕捉到了标准度量方法未反映出的对灾难的担忧。这两篇论文都旨在利用新闻文本度量风险,但采用了不同的方法。Baker et al. (2016)使用锚定短语查询,搜索那些提及来自经济、政策和不确定性这三个词表中单词的新闻,这依赖于研究人员在选择最佳短语方面的专业知识。相比之下,Manela and Moreira (2017) 使用监督机器学习方法,对同期头版新闻报道中提及的单词计数进行正则化文本回归,让数据来选择相关单词。

Hassan et al. (2019) 从财报电话会议记录中创建了基于文本的特定公司政治风险度量指标,展示了政治不确定性如何影响公司的投资和招聘决策。该论文提供了一种新颖的方法,通过使用教科书材料的子集来创建与他们的研究目的相关的政治和非政治词表。Jiang et al. (2022)利用大语言模型来预测收益,表明上下文嵌入能够捕捉到传统方法之外的与风险相关的信息。

从理论上讲,当新信息发布时,有效市场的价格应该发生变化,而当相同的新闻被重新发布时价格不应变化,尽管在实践中并非总是如此(Huberman and Regev, 2001)。几篇论文使用比较型(ROC-comparative)研究方法,基于文本分析来度量新闻的新颖性。 Tetlock (2010)将一则新闻报道的陈旧程度定义为它与之前关于同一家公司的十则新闻报道的文本相似度。研究发现,股票收益对陈旧新闻的反应较小。Glasserman et al. (2023) 通过使用循环神经网络计算的熵度量来衡量新闻的新颖性。他们发现,横截面熵暴露带有负的风险溢价。

整体综合型(ROC-holistic)研究的近期例子包括Bybee et al. (2023) 和 Lopez-Lira (2023) 的研究,他们使用主题模型技术从文本中提取系统性风险因素,将新闻叙事和风险披露与收益的横截面联系起来。


6.4 机构投资者


新闻与机构交易之间的关系为市场效率和信息优势提供了深刻见解。Huang et al. (2020) 使用与机构交易记录相匹配的全面新闻专线数据,研究了机构在新闻发布前后的交易行为。他们发现有证据表明机构能够预测某些类型的新闻内容,这表明机构具有复杂的信息处理能力。Huang et al. (2023) 研究了公司新闻事件前后债券基金的交易情况,展示了机构如何应对新闻驱动的价格压力来提供流动性。


6.5 社交媒体


投资者网络生成的文本数据揭示了信息和观点如何在市场中传播。金融领域中关于社交网络的文献数量众多且还在不断增加。因此,本文仅对这一文献领域的一小部分进行综述,并建议感兴趣的读者参考Cookson et al. (2024b)最近的综述。

在具有开创性的研究中,Antweiler and Frank (2004) 通过分析来自雅虎财经(Yahoo! Finance)和“狂牛”(Raging Bull)网站上关于上市公司的150多万条帖子,研究了互联网股票留言板对市场行为的影响。这项早期研究是目标导向型(ROC-Targeted)研究目标的一个例子,它使用朴素贝叶斯文本回归将一组训练信息分类为“买入”“持有”或“卖出”。基于这种对看涨情绪的度量,他们发现留言板讨论有助于预测市场波动性,尽管其对股票收益的影响在统计上显著,但在经济意义上较小。作者还观察到,留言者之间的意见分歧与交易量的增加相关。

Cookson and Niessner (2020)通过分析来自社交媒体投资平台StockTwits的情绪数据,以及用户的投资方法(如技术分析或基本面分析),研究了投资者意见分歧的来源。该研究依赖于用户自我报告的情绪,以及最大熵情绪分类器。论文区分了由不同信息集导致的意见分歧和由对相同信息的不同解读导致的意见分歧。作者发现,总体意见分歧由这两个因素同等驱动,但组内意见分歧与交易量的相关性更强。他们的结果表明,信息差异对交易行为的影响比对投资风格差异的影响更显著。

Cookson et al. (2023a) 分析了一个社交投资平台上的2.5亿条帖子,发现随着时间推移,用户使用的语言和观点越来越相似,随着“回声室”效应(信息和观点在一个相对封闭的圈子里得到加强)的增强,相关的交易模式带来的利润越来越少。Cookson et al. (2024a)将社交媒体帖子中的文本与交易数据相结合,记录表明语言风格相似的投资者会进行相关的交易,尤其是在市场压力时期。Hirshleifer et al. (2024)使用县级网络和StockTwits消息研究了收益新闻的社交传播。他们发现,在联系更紧密的县的公司,其价格在公告发布后立即反应更强烈,公告发布后的调整速度更快,但交易量持续处于高位,这与他们的社交搅动假说一致。

Cookson et al. (ming),社交媒体情绪能够预测并购交易的撤回。为了更好地理解这种可预测性的来源,他们使用主题模型将社交媒体信号分解为关于不同主题的推文,这些主题有的包含基本面信息(公司讨论、交易条款讨论等),有的则不包含(梗图推文、技术推文等)。他们发现,这种可预测性是由基本面投资者发布的与并购相关的较长推文驱动的,而不是梗图推文和价格趋势推文。

Cassella et al. (2023)研究了社交媒体预测者发布的帖子。研究记录表明,乐观的预测者在面对负面新闻时,会将他们的预期转向更长的预测期限。为了度量这些帖子与长期相关的程度(一个目标导向型的目标),他们使用词嵌入构建了一个词库,该词库由最接近“长期”和“长远”的顶级词汇组成。然后,他们使用这个词库为每个帖子获得长期语言得分。

Li (2025)研究了意识形态叙事作为资产定价风险来源的作用。该研究使用社交媒体和大语言模型来度量意识形态的动态变化。这项目标导向型研究从一组在加密货币背景下重要的意识形态(无政府主义和去中心化)开始,然后使用精确的锚定短语和大语言模型来度量它们在社交媒体文本中的显著性。研究发现,这些意识形态动态的波动在加密货币收益的横截面中得到了定价。


6.6 高频(日内)收益可预测性


高频日内分析具有观测数量众多的独特优势,这对于从高维解释变量集合中进行可靠的统计推断至关重要。因此,文本数据的超高维度使得在不进行过度降维的情况下梳理出与文本的依赖关系成为可能。

高频处理文本信息为研究市场效率提供了一个独特的实验环境。Chinco et al. (2019)使用最小绝对收缩和选择算子(LASSO)方法,根据整个市场的滞后收益来预测提前一分钟的收益,展示了机器学习在高频预测中的价值。Aleti and Bollerslev (2024) 对日内新闻对资产价格的影响进行了全面分析,发现货币政策和金融部门的新闻对价格的影响最为强烈。这两项目标导向型研究都使用了文本回归方法,利用了它们数据的高频特性。


07
金融领域的其他主题


7.1 可持续发展


本文对可持续发展的关注涵盖了专注于传统领域(如气候金融和环境)的研究,也包括一些新兴但相关的领域,比如生物多样性。本文认为可持续发展研究具有巨大的潜力,尤其是在利用自然语言处理工具开创性地创建新数据库方面,这些数据库能够为以往未探索过的未来研究提供有力支持。对环境、社会和治理(ESG)所有方面的研究,包括社会和治理方面,以及ESG运动所带来的政治和经济影响,都是未来研究的沃土。

新闻报道、公司披露文件和专利文档有助于衡量新兴的气候风险以及市场的反应,而这些方面是传统的数值数据所无法做到的。Engle et al. (2020)开发了一种针对气候风险的动态对冲程序,从基于报纸的气候新闻系列中提取创新信息。他们使用第三方ESG评分来模拟公司所面临的风险敞口,构建了行业平衡的模拟投资组合,在样本内和样本外都能对冲气候新闻带来的创新风险。

Cohen et al. (2020a)分析了专利文本以衡量绿色创新,发现拥有更多气候缓解专利的公司,其获得的环境评级比行业同行更低。Bingler et al. (2022)开发了“气候Bert”(ClimateBert),这是一个基于气候相关披露信息训练的语言模型,该模型记录了在公司气候风险报告中普遍存在的模糊语言使用和选择性披露的情况。

Sautner et al. (2023)开发了一种机器学习关键词发现算法,用于在财报电话会议中衡量公司的气候变化风险敞口。将该算法应用于2002年至2020年间34个国家的10000多家公司,他们的衡量指标能够预测绿色技术领域的就业创造情况和绿色专利申请情况,并且有证据表明期权和股票市场对这些指标进行了定价。Leippold (2023)通过结构化访谈的方式探索了GPT-3对气候金融的了解程度,评估了该模型对气候风险和可持续投资概念的理解。

近年来,随着利益相关者越来越认识到生物多样性丧失、气候变化以及其他紧迫环境问题之间的深刻联系,生物多样性金融受到了越来越多的关注。这个新兴领域凸显了对新型金融机制的需求,以及对生物多样性风险和关注度的新的衡量方法的需求,而这些衡量方法往往依赖于将文本作为数据。

Giglio et al. (2023)开发了一种基于新闻的总体生物多样性风险衡量指标,并利用对公司10-K报告声明的文本分析构建了公司层面的风险敞口衡量指标。他们的研究结果表明,这些与气候相关风险概况不同的风险敞口,已经在影响股票价格,尽管许多市场参与者认为当前的定价并未完全考虑生物多样性风险。

Chen et al. (2023)通过关注中国的“绿盾行动”,研究了金融市场如何对与生物多样性保护相关的成本进行定价。作者利用来自地方政府文件和官方债券披露的文本数据,来衡量市场情绪和与政策相关的信息。他们发现,该倡议改善了生物多样性,但也导致拥有这些保护区的城市的债券收益率大幅上升,实际上增加了公共资本的成本。

Chen et al. (2024)研究了长江流域严格的季节性禁渔措施对社会经济的影响,强调了保护当地鱼类资源如何促进了更高质量的科学研究。通过分析研究资金申请、出版物和媒体报道的文本内容,他们展示了生物多样性政策如何间接刺激创新和学术产出。

总体而言,本文认为对可持续发展概念的衡量是许多研究中的一个重要主题。鉴于ESG的三个组成部分以及相关运动的复杂性,继续构建对这些组成部分及其对商业影响的准确衡量方法,对于未来的研究人员来说仍然是一个富有成果的研究领域。


7.2 中央银行沟通


中央银行在很大程度上依赖语言来传达政策信号并塑造市场预期。Hansen et al. (2018)分析了美国联邦公开市场委员会(FOMC)的会议记录,以研究透明度如何影响货币政策的讨论过程。Cieslak and Vissing-Jorgensen (2021)研究了20世纪90年代中期以来的FOMC文件,结果表明,股票负收益主要通过政策制定者对消费财富效应的担忧来预测政策宽松措施。他们发现没有证据表明美联储对市场的反应超出了市场对增长预期的影响范围。Cieslak et al. (2021) 分析了FOMC的非公开讨论内容,以量化不同类型的不确定性,发现通货膨胀不确定性会导致货币政策立场收紧,尤其是当通货膨胀接近或超过目标水平时。这种反应反映了FOMC对通货膨胀上行风险的关注。


7.3 银行业与监管


银行监管通过检查报告和监管通信生成了大量的文本记录,这些记录揭示了数值申报文件中未涵盖的信息。Goldsmith-Pinkham et al. (2016)分析了美联储审查员提出的监管问题(“需要关注的事项”)。他们发现,监管问题的数量随着银行规模和复杂性的增加而增加,随着银行盈利能力和贷款质量的提高而减少。他们的分析表明,处于压力下的银行解决问题的速度更快,但面临多个问题的银行解决每个问题所需的时间更长,这表明存在能力限制。Cookson et al. (2023b) 研究了社交媒体在银行挤兑中的作用,展示了数字网络如何在银行危机期间加速存款提取。

Engelberg et al. (2023) 研究了金融监管机构(美联储和美国证券交易委员会)的党派倾向。他们提出了一种基于文本的党派倾向衡量指标,该指标能够衡量仅根据说话者使用的语言来猜测其所属政党的可能性大小。例如,在21世纪10年代,“繁文缛节”(“red tape”)一词更有可能被共和党人使用,而“气候变化”(“climate change”)更常被民主党人提及。他们发现,从1930年到2019年,美联储理事在很大程度上保持了非党派性,但美国证券交易委员会委员的党派倾向在2010年至2019年期间达到了历史最高水平。

在银行业和监管领域使用自然语言数据仍处于起步阶段。在利用银行员工和银行监管机构生成的非结构化数据来丰富这方面的文献研究方面,还有很多工作可以做。


7.4 金融危机与系统性风险


幸运的是,金融危机并不常见。因此,研究金融危机需要长期且广泛的面板数据。历史文本和媒体报道为本文提供了长期视角,让本文了解社会如何看待和应对金融危机。Jha et al. (2022)分析了来自八个国家的数百万本已出版书籍,衡量了数百年来人们对金融的情绪。他们发现不同国家对金融的情绪存在持续差异,资本主义程度更高的国家对金融的情绪更为积极。他们还发现,对金融的情绪与金融市场参与度和收入不平等相关,并且在金融危机前一年情绪会下降。

这个目标导向型(ROC-targeted)研究方法的例子使用双向编码器表征变换器(BERT)将提及“金融”的书籍句子嵌入到向量空间中。其金融情绪指数用于衡量平均而言,提及金融的句子在语义上更接近“金融有益于社会”还是“金融损害社会”。作为论文验证测试的一部分,研究表明,对于其他重要行业(如造纸、煤炭、烟草等)和其他实体(如银行、股票、共同基金等),也可以构建类似的情绪指数。探索这些其他情绪指数及其与经济的关系是未来研究的一个有趣方向。

Jha et al. (2021) 依靠上述对金融情绪的衡量方法,研究了自然灾害如何影响公众对金融的情绪。他们发现,在流行病和地震发生后,公众对金融的情绪会下降,但在严重干旱、洪水和山体滑坡之后情绪会上升。这些不同的影响表明,公众对金融的情绪对已投保风险和未投保风险的实际发生情况的反应是不同的。对于政策制定者来说,了解正在发生的危机的影响至关重要。及时的报纸报道使得Jha et al. (2021) 能够在新冠疫情爆发初期衡量公众对金融的情绪。他们发现,在疫情开始时,公众对金融的情绪下降,但在那些股市回报率较高且采取大规模财政支出措施应对疫情的国家,情绪有所回升。

与此主题相关的是,Hanley and Hoberg (2019) 通过将金融机构在10-K报告风险因素部分中报告的文本内容与公司间收益率协方差矩阵的动态演变联系起来,以动态的方式衡量了金融机构面临的具有系统重要性的新兴风险。当报告的风险与协方差之间的关系在数据中以一种主要的系统性方式发生变化时,结果表明系统性金融不稳定的风险正在上升。作者使用的方法能够在潜在风险完全显现的数年前就提醒市场参与者注意这些风险。该方法基于潜在狄利克雷分配(LDA)和word2vec嵌入技术,这也有助于对新兴风险进行解释,以便监管机构能够采取相应行动。


08
主要挑战与未来工作方向


在前面的章节中,本文讨论了未来研究的许多途径。在本节中,本文总结了一些未来研究人员可能会考虑的宏观问题,并指出了文献中存在的更大且更具挑战性的空白。本文的第一部分讨论方法学上的挑战,第二部分讨论特定领域的研究方向。


8.1 解决方法学上的局限性


本文中提到的各种方法表明,在开发能够回答许多以往方法无法回答的问题的理想方法方面,已经取得了巨大的进展。即使不再取得进一步的进展,现有的充足工具也足以在未来几十年内推动金融经济学领域的研究。然而,迄今为止的进展也揭示了一些差距,为未来专注于方法学研究的人员指明了富有成果的研究方向。

- 改进主题模型:虽然像潜在狄利克雷分配(Latent Dirichlet Allocation)这样的主题模型以及与之相关联的嵌入后续模型,无疑是一项重大突破技术,并且在金融文献中已经有一些令人瞩目的研究成果,但许多金融经济学研究人员认为,在主题的可解释性和清晰度方面仍有改进的空间,且这一方向成果可期。当文档具有较强的语言要素结构时(例如10-K报告的风险因素部分和媒体内容),现有的主题模型似乎效果更好,但对于更加多样化的文本,其效果则不尽如人意。

- 可解释性:这一评论反映了金融经济学家对几乎所有自然语言处理工具在可解释性方面改进的强烈需求。机制的清晰性和识别的准确性是金融经济学研究成功的核心,因为 “黑箱” 问题会带来实际的不良后果。提高可解释性的目标是得出严谨、识别准确且具备适当风险管理措施的结果。这需要对导致特定结果的经济机制有清晰的理解。

- 自动假设形成:尽管已经开展了一些开创性的工作,但由于多种原因,这一领域仍然极具潜力。首先,即使是最优秀的经济学家,也不太可能可靠地提出所有可能解释某个给定结果的假设。这种人类局限性可能导致的后果包括:(A)面临可能给社会带来高昂成本的系统性风险;(B)投资策略在大多数时候表现良好,但却可能以较低概率随时崩溃;(C)政策选择容易因监管套利而失效;(D)政策变化仅仅因为针对了错误的经济力量而毫无效果。

- 生成式预训练变换器(GPT)与偏差记录和最小化:毫无疑问,生成式人工智能将在研究和实际应用中发挥越来越重要的作用。然而,这些工具容易受到显著偏差的影响,因为它们是使用近期数据进行训练的,而金融经济学家需要使用更早期的数据对计量经济学模型进行回测。这可能会产生偏差,因为这些大语言模型(LLMs)中的内容可能包含了在早期观测时并不存在的信息。更严谨地记录这种偏差在何时显著、何时不显著,有助于提高使用这些模型进行推断的可靠性。此外,还需要进一步开展工作,开发严谨的方法来帮助研究人员消除估计偏差。

- 大语言模型提示的最佳实践:业内人士都知道,向诸如ChatGPT和Claude等大语言模型输入的提示词,其设计水平可能很高,也可能很差。在金融经济学领域开发提示词的最佳实践,在很大程度上仍是一个尚未被充分研究的重要课题。这样的标准和最佳实践能够显著提高该领域研究工作的严谨性。

- 数字运用能力:从文本中提取数字:金融经济学家开发的许多大型语料库既包含文本又包含数字,其中数字通常指的是由文本所表明的数量或金额。进一步开发更好地将这些文本和数字数量联系起来的方法,在未来的许多研究项目中应该会很有用。


8.2 未来研究人员的特定领域主题


自然语言处理方法在推动金融经济学核心主题的研究方面取得了巨大进展。然而,鉴于这些工具的深度和可用的语料库,仍有更多的研究主题有待探索。本文列举一些具有代表性的例子,以说明未来研究中可能产生重大影响的富有成果的领域。

- 推动更多准自然实验:金融经济学领域的文献仍然侧重于具有严格且明确解释的推断。标准做法是利用具有合理外生变化的经济变量。正如本文在这篇综述中所指出的,自然语言处理方法可用于为一些重要经济事件创建合理的外生工具变量,而在某些情况下,这些事件缺乏强度的数值度量指标。

- 机制揭示:另一种提高识别准确性的方法是设计能够揭示机制的测试,这是本文自始至终都在讨论的一个话题。证明机制已经成为金融经济学家评估研究的普遍要求,因此这种方法可以改进许多在支持性证据方面不够确定的研究项目。

- 国际文本语料库:现有研究在理解美国的主要语料库方面已经取得了重大进展,但对国际语料库的探索仍显不足,尤其是在发展中经济体。这一领域的工作将需要克服多语言内容和异构数据格式的挑战。不过,可能存在一些新颖的数据库(特别是由从业者或学术与从业者联合团队创建的数据),或者在某些情况下可以降低创建框架的成本。

- 环境、社会和治理(ESG)度量:在这一领域已经开展了许多开创性的工作。然而,本文认为,衡量各种经济主体如何实现非金钱目标,仍然是一个富有成果的研究领域。这一观点反映了一个事实,即企业为社会和ESG目标做出贡献的方式,其维度可能比目前文献中所呈现的更高。

- 加强公司金融、资产定价、会计和经济学等子学科之间的联系:金融领域的许多学科相互关联,但将这些学科联系起来的研究仍有很大的发展空间,而自然语言处理可能为连接这些主题提供新的途径。

- 企业文化与战略:这些领域的开创性工作已经说明了这些主题的重要性。然而,文化和战略的维度可能比目前文献中所描述的更高,且它们之间的相互关系也更为紧密。由于这两个方面在各种语料库中都有大量体现,进一步深入研究它们的潜力仍然很大。

- 政策与监管:在主要经济体的总劳动力中,很大一部分人在政府和监管机构工作。尽管开创性的研究已经取得了有力的成果,表明了这一领域的重要性并得出了一些新颖的发现,但这一领域的维度可能远比目前所记录的要大得多,并且存在大量的语料库可用于进一步探索这一主题。

- 消费者福利:许多将产业组织的概念引入金融研究的研究已经取得了重大进展,尤其是在研究重要理论如何动态影响企业战略和绩效方面。然而,消费者福利方面存在一个显著的空白,因为现有的关于价格的数值数据(如尼尔森数据库)虽然很出色,但在大多数研究项目中,它只涵盖了上市公司(和私营公司)样本的一小部分。可能存在一些新颖的文本语料库,可以更系统地评估消费者福利和价格水平,从而为许多研究项目提供支持,因为许多理论在这一领域都有很强的预测性。

- 人工智能的影响:一些开创性的工作已经将这一领域开辟为一个新的研究方向,显然,新的人工智能技术将对商业产生重大影响。然而,仍然存在许多不确定性,并且目前在金融经济学的许多子学科中,人们对此了解甚少。

- 网络数据库和两两交互:使用文本语料库生成动态网络的研究正在走向成熟。然而,提供对新的动态网络演变识别的新语料库仍然具有很大的潜力,并且可能会产生重要影响。

- 风险管理:过去,风险管理的研究一直具有挑战性,部分原因是测量方面的困难,因为二阶矩概念在公共数据库中较少以数值形式报告。这一领域与公司金融和资产定价都相关,因为企业和投资者都可能面临重大风险以及潜在的系统性风险敞口。

- 社交媒体:尽管使用社交媒体文本的研究不断增加,但这一领域语料库的高维度和高度动态的性质表明,仍然存在许多机会。当研究主题能够将个人行为或决策与商业或投资结果联系起来时,情况尤其如此。


09
结论


本文旨在帮助读者深入了解自然语言处理(NLP)工具在金融经济学及相关学科研究中的演变历程。在此基础上,核心目标是让研究人员了解如何评估这些工具是否能为他们的特定研究或应用带来益处,以及如何选择最适合其应用的特定自然语言处理工具。本文的内容以学术研究为重点,作为框架和背景的示例,但项目评估框架对于正在构建金融应用的学术研究人员、从业者和监管者同样适用。


来源:学说平台


【声明】内容源于网络
0
0
金科丛林
聚焦国际前沿研究,经济思想应用,行业发展动态,政策法规洞察,学研信息共享,学者领袖沟通。共推数字化,大数据,人工智能,Web3等在数字经济,科技金融,普惠可续领域的知识积累和创新应用。(康奈尔大学丛林教授数济金科实验室)
内容 140
粉丝 0
金科丛林 聚焦国际前沿研究,经济思想应用,行业发展动态,政策法规洞察,学研信息共享,学者领袖沟通。共推数字化,大数据,人工智能,Web3等在数字经济,科技金融,普惠可续领域的知识积累和创新应用。(康奈尔大学丛林教授数济金科实验室)
总阅读4
粉丝0
内容140