Charles M.C. Lee , Qinlin Zhong两位学者合作在会计学顶刊Journal of Accounting and Economics发表了一篇题为“Shall we talk? The role of interactive investor platforms in corporate communication”的文章。该研究挖掘BERT的大语言模型分析中国投资者互动平台上的250万条问答数据,在使用大模型挖掘互动平台文本数据方面具有参考价值。对大语言模型感兴趣的可以了解一下近期推出的《Python计算社会科学训练营:从0基础到机器学习与大语言模型进阶》,共设置Python结构化数据分析、网络数据采集、文本分析、机器学习、社会网络分析、大语言模型6个专题模块,含Management Science、Review of Financial Studies、Research policy等22个案例。
研究介绍
在2010年至2017年间,中国投资者通过投资者互动平台(IIP)向上市公司提出了约250万个问题,其中绝大多数问题在两周内得到了公司的回复。研究者利用基于BERT的先进算法对这些海量IIP对话进行了深入分析,初步揭示了平台使用的原因及其市场影响。分析结果表明,投资者提出的问题大多源于其在处理已公开信息时面临的显著困难,反映了普遍存在的信息处理成本。
研究发现,在控制其他信息流的情况下,IIP活动的增加与一系列积极的市场变化显著相关。具体表现为交易量上升、回报波动性增强、市场流动性提高以及价格信息性(即价格反映信息的效率)的提升,同时买卖价差呈现缩小趋势。研究还观察到,在新企业会计准则实施后,平台上与财务报表相关的问题和讨论显著增多。综合来看,这些证据表明,尽管投资者承担着可观的信息处理负担,但IIP上的互动活动有效缓解了这些成本,促进了更有效的股票价格形成机制,从而对资本市场的运行效率产生了积极影响。
2010至2017年间,中国投资者通过互动平台(IIP)向上市公司累计提出约250万条质询,其中绝大多数问题在两周内获得回应。这一海量非结构化文本数据的分析突破,得益于研究者采用基于BERT架构的大语言模型算法。该技术实现了对投资者与公司间复杂对话的深度语义解析,揭示了传统金融研究方法难以捕捉的行为模式。
分析表明,投资者提问的核心动因源于公开信息处理成本。当面对财报披露、政策变更或行业动态时,投资者往往需要耗费大量精力整合碎片化信息。大语言模型通过语义聚类与意图识别技术,精准捕捉到多数问题实质是对既有公开信息的解读需求,而非索取未披露内容。这种技术驱动的洞察修正了市场对投资者行为的传统认知。
值得注意的是,IIP活动的市场效应通过大语言模型量化分析得到验证。在控制其他信息干扰因素后,平台互动强度与多项关键市场指标呈现显著相关性:交易量增长、价格波动性提升、市场流动性增强及买卖价差收窄,同时股价信息含量明显提高。特别在新会计准则实施周期内,模型成功捕捉到财报类问题密度的异常波动,印证了平台对政策落地的敏感性。
大语言模型在此研究中的核心价值体现在三个维度:其一,突破传统计量方法对非结构化文本的处理瓶颈,实现百万级对话的智能编码;其二,精准分离信息处理成本与其他干扰变量,构建严谨的因果推断链条;其三,通过实时跟踪问题特征演变,动态映射政策变革的市场传导路径。这标志着自然语言处理技术已成为现代金融实证研究的关键基础设施。
研究表明,IIP平台实质构成了降低市场信息摩擦的基础设施,而大语言模型则提供了透视其运行机制的显微镜。该技术不仅验证了互动平台通过降低投资者信息处理成本来优化价格发现功能的假说,更开创了基于对话大数据分析市场微观结构的新范式。随着算法模型的持续进化,实时监测投资者认知状态并预判市场行为,正从理论可能转化为监管实践。
文献来源:
Lee C M C, Zhong Q. Shall we talk? The role of interactive investor platforms in corporate communication[J]. Journal of Accounting and Economics, 2022, 74(2-3): 101524.

