现如今,大语言模型已成为高校师生质性研究、定量研究、教育教学、学习成长的强力助手,而当前国内学界对该方法的技术落地与理论融合探索尚处于深化阶段,预期将成为下一代科研范式的关键突破方向。
本期我们推荐香港科技大学Allen H. Huang、Yi Yang和中国人民大学王慧合作研究撰写的论文“FinBERT: A Large Language Model for Extracting Information from Financial Text(FinBERT:一种用于从金融文本中提取信息的大型语言模型)”,该论文在会计学顶刊Contemporary Accounting Research上发表。
文章介绍
研究开发了 FinBERT,这是一种适用于金融领域的最先进的大型语言模型。研究表明 FinBERT 结合了金融知识,可以更好地总结金融文本中的上下文信息。使用分析师报告中研究人员标记的句子样本,研究记录了 FinBERT 在情感分类方面的性能大大优于 Loughran 和 McDonald 字典和其他机器学习算法,包括朴素贝叶斯、支持向量机、随机森林、卷积神经网络和长短期记忆。研究结果表明,FinBERT 擅长识别其他算法错误标记为中性的句子的积极或消极情绪,这可能是因为它在金融文本中使用了上下文信息。
研究发现,FinBERT 相对于其他算法的优势,以及 Google 原始的来自 transformers 模型的双向编码器表示,当训练样本量较小且包含一般文本中不常使用的金融词的文本时,FinBERT 的优势尤为突出。FinBERT 在识别与环境、社会和治理问题相关的讨论方面也优于其他模型。最后,研究表明,与 FinBERT 相比,其他方法低估了收益电话会议的文本信息性至少 18%。我们的研究结果对学术研究人员、投资专业人士和金融市场监管机构具有重要意义。
文章来源
Huang, Allen H., Hui Wang, and Yi Yang. "FinBERT: A large language model for extracting information from financial text." Contemporary Accounting Research 40.2 (2023): 806-841.

